您的位置:首页 > 其它

基于图的评级算法基础——马尔可夫链

2016-08-18 23:22 357 查看
本文只介绍离散时间的马尔可夫链,但这对于理解接下来要讲的PageRank算法、HITS算法和TextRank算法足够了。

概念

马尔可夫链是一个满足马尔可夫性质的状态序列。

所谓状态,就是一个东西在某一个时间所处的状态,比如我现在的状态时写博客,你现在的状态的看博客。一个东西所有的状态的集合S,称为状态空间。假设总共有m种状态,可以如下表示状态空间:

S={1, … , m}, 其中m为整数。

所谓马尔可夫性质,是指东西接下来会处于什么状态,只与它的上一个状态有关。用Xn表示东西在时刻n所处的状态,马尔可夫性质便可由下面的公式阐述:

P(Xn+1 = j|Xn = i, Xn-1 = in-1, …, X0 = i0) = P(Xn+1 = j|Xn = i)

其中,i0, in-1, i, j∈S

我们把P(Xn+1 = j|Xn = i) 记为Pij, 即

Pij = P(Xn+1 = j|Xn = i)

Pij称为转移概率。

所有状态间的转移概率构成一个m x m的转移概率矩阵:

⎡⎣⎢⎢⎢⎢⎢P11P21⋮Pm1P12P22⋮Pm2⋯⋯⋱⋯P1mP23⋮Pmm⎤⎦⎥⎥⎥⎥⎥

其中,矩阵的每一行之和为1,且非负。

n步转移概率

现在东西处在状态i,n步之后,东西处在状态j的概率定义为:

rij(n) = P(Xn = j | X0 = i)

这个概率成为n步转移概率。

n步转移概率可以通过迭代公式求得:

rij(n) = ∑mk=1rkj(n)Pkj

其中, rij(1) = Pij

上面的公式也可以表示为矩阵形式:

⎡⎣⎢⎢⎢⎢P1P2⋮Pm⎤⎦⎥⎥⎥⎥n=⎡⎣⎢⎢⎢⎢⎢P11P21⋮Pm1P12P22⋮Pm2⋯⋯⋱⋯P1mP23⋮Pmm⎤⎦⎥⎥⎥⎥⎥T⎡⎣⎢⎢⎢⎢P1P2⋮Pm⎤⎦⎥⎥⎥⎥n−1

使

pk=⎡⎣⎢⎢⎢⎢P1P2⋮Pm⎤⎦⎥⎥⎥⎥n,其中,p的第j个元素就是rij(n)

A=⎡⎣⎢⎢⎢⎢⎢P11P21⋮Pm1P12P22⋮Pm2⋯⋯⋱⋯P1mP23⋮Pmm⎤⎦⎥⎥⎥⎥⎥

则有:

pk = ATpk-1,其中,k > 1

如果矩阵(AT)k(A转置的k次方)的所有元素都大于0,当k⟶∞时, pk收敛于唯一的p,即:

p=ATp

p就是AT特征值为1时的特征向量。

参考资料:

《概率导论》第2版,(美)伯特瑟卡斯,(美)齐齐克利斯 著,郑忠国,童行伟 译

《Web数据挖掘》第2版,Bing Liu 著, 俞勇 译

《线性代数及其应用》第3版,(美)莱(Lay,D.C.) 著,刘深泉 等译
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息