您的位置：首页 > 其它

基于图的评级算法基础——马尔可夫链

2016-08-18 23:22 357 查看

本文只介绍离散时间的马尔可夫链，但这对于理解接下来要讲的PageRank算法、HITS算法和TextRank算法足够了。

概念

马尔可夫链是一个满足马尔可夫性质的状态序列。

所谓状态，就是一个东西在某一个时间所处的状态，比如我现在的状态时写博客，你现在的状态的看博客。一个东西所有的状态的集合S，称为状态空间。假设总共有m种状态，可以如下表示状态空间：

S={1, … , m}, 其中m为整数。

所谓马尔可夫性质，是指东西接下来会处于什么状态，只与它的上一个状态有关。用Xn表示东西在时刻n所处的状态，马尔可夫性质便可由下面的公式阐述：

P(Xn+1 = j|Xn = i, Xn-1 = in-1, …, X0 = i0) = P(Xn+1 = j|Xn = i)

其中，i0, in-1, i, j∈S

我们把P(Xn+1 = j|Xn = i) 记为Pij, 即

Pij = P(Xn+1 = j|Xn = i)

Pij称为转移概率。

所有状态间的转移概率构成一个m x m的转移概率矩阵：

⎡⎣⎢⎢⎢⎢⎢P11P21⋮Pm1P12P22⋮Pm2⋯⋯⋱⋯P1mP23⋮Pmm⎤⎦⎥⎥⎥⎥⎥

其中，矩阵的每一行之和为1，且非负。

n步转移概率

现在东西处在状态i，n步之后，东西处在状态j的概率定义为：

rij(n) = P(Xn = j | X0 = i)

这个概率成为n步转移概率。

n步转移概率可以通过迭代公式求得：

rij(n) = ∑mk=1rkj(n)Pkj

其中， rij(1) = Pij

上面的公式也可以表示为矩阵形式：

⎡⎣⎢⎢⎢⎢P1P2⋮Pm⎤⎦⎥⎥⎥⎥n=⎡⎣⎢⎢⎢⎢⎢P11P21⋮Pm1P12P22⋮Pm2⋯⋯⋱⋯P1mP23⋮Pmm⎤⎦⎥⎥⎥⎥⎥T⎡⎣⎢⎢⎢⎢P1P2⋮Pm⎤⎦⎥⎥⎥⎥n−1

使

pk=⎡⎣⎢⎢⎢⎢P1P2⋮Pm⎤⎦⎥⎥⎥⎥n，其中，p的第j个元素就是rij(n)

A=⎡⎣⎢⎢⎢⎢⎢P11P21⋮Pm1P12P22⋮Pm2⋯⋯⋱⋯P1mP23⋮Pmm⎤⎦⎥⎥⎥⎥⎥

则有：

pk = ATpk-1，其中，k > 1

如果矩阵(AT)k(A转置的k次方)的所有元素都大于0，当k⟶∞时, pk收敛于唯一的p，即：

p=ATp

p就是AT特征值为1时的特征向量。

参考资料：

《概率导论》第2版，（美）伯特瑟卡斯，（美）齐齐克利斯著，郑忠国，童行伟译

《Web数据挖掘》第2版，Bing Liu 著，俞勇译

《线性代数及其应用》第3版，（美）莱（Lay,D.C.）著，刘深泉等译

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 算法机器学习马尔可夫链

相关文章推荐

新的分享

章节导航