您的位置：首页 > 其它

Gibbs sampling -- batch LDA

2016-05-25 06:25 417 查看

详细的推导我就不记录了，毕竟各种文章中都有讲到LDA的各种实现算法。用variational inference的，用gibbs sampling的。Gibbs sampling又有batch的，online的，incremental的等等。这里只提一种常用的batch gibbs sampling算法，即由Griffiths和Steyers提出的collapsed Gibbs sampler。

其中batch gibbs sampling 也就是传统的静态数据集上运行的LDA算法，这也是我们这一篇文章所涉及到的，动态的o-LDA和iLDA在以后的文章中讲。结合上一篇文章中提到的Gibbs抽样基本思想来理解，这个抽样器的状态空间是主题在每一篇文章中的词上的分布。该算法被称为“collapsed”是由于它把变量θ和ϕ都积掉了，只留下隐含主题变量zN需要被抽样。这种思想也是统计推断中常用到的，即将不关心的变量都尽量积掉，这样能大大降低算法的时空复杂度。

对于算法collapsed Gibbs sampler，它的核心就是对单词j基于以下条件概率进行抽样：

P(zj|zN∖j,wN)∝n(wj)zj,N∖j+βn(dj)zj,N∖j+αn(∙)zj,N∖j+Wβn(dj)∙,N∖j+Tα

其中ZN∖j表示(z1,...,zj−1,zj+1,...,zN)，W是vocabulary的大小，也就是不同单词的个数。n(wj)zj,N∖j表示当前iteration时，单词wj被分配为主题zj的次数，n(∙)zj,N∖j是所有词被分配为主题zj的个数，等等。

经过算法

1: initialize zN randomly from 1,...,TN

2: loop

3: choose j from {1,…,N}

4: sample zj from P(zj|zN∖j,wN)

收敛到后验概率分布 P(zN|wN)。也就得到了我们所希望求得的每个词所属主题。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 算法 LDA 主题模型

相关文章推荐

新的分享

章节导航