Gibbs sampling -- batch LDA
2016-05-25 06:25
417 查看
详细的推导我就不记录了,毕竟各种文章中都有讲到LDA的各种实现算法。用variational inference的,用gibbs sampling的。Gibbs sampling又有batch的,online的,incremental的等等。这里只提一种常用的batch gibbs sampling算法,即由Griffiths和Steyers提出的collapsed Gibbs sampler。
其中batch gibbs sampling 也就是传统的静态数据集上运行的LDA算法,这也是我们这一篇文章所涉及到的,动态的o-LDA和iLDA在以后的文章中讲。结合上一篇文章中提到的Gibbs抽样基本思想来理解,这个抽样器的状态空间是主题在每一篇文章中的词上的分布。该算法被称为“collapsed”是由于它把变量θ和ϕ都积掉了,只留下隐含主题变量zN需要被抽样。这种思想也是统计推断中常用到的,即将不关心的变量都尽量积掉,这样能大大降低算法的时空复杂度。
对于算法collapsed Gibbs sampler,它的核心就是对单词j基于以下条件概率进行抽样:
P(zj|zN∖j,wN)∝n(wj)zj,N∖j+βn(dj)zj,N∖j+αn(∙)zj,N∖j+Wβn(dj)∙,N∖j+Tα
其中ZN∖j表示(z1,...,zj−1,zj+1,...,zN),W是vocabulary的大小,也就是不同单词的个数。n(wj)zj,N∖j表示当前iteration时,单词wj被分配为主题zj的次数,n(∙)zj,N∖j是所有词被分配为主题zj的个数,等等。
经过算法
1: initialize zN randomly from 1,...,TN
2: loop
3: choose j from {1,…,N}
4: sample zj from P(zj|zN∖j,wN)
收敛到后验概率分布 P(zN|wN)。也就得到了我们所希望求得的每个词所属主题。
其中batch gibbs sampling 也就是传统的静态数据集上运行的LDA算法,这也是我们这一篇文章所涉及到的,动态的o-LDA和iLDA在以后的文章中讲。结合上一篇文章中提到的Gibbs抽样基本思想来理解,这个抽样器的状态空间是主题在每一篇文章中的词上的分布。该算法被称为“collapsed”是由于它把变量θ和ϕ都积掉了,只留下隐含主题变量zN需要被抽样。这种思想也是统计推断中常用到的,即将不关心的变量都尽量积掉,这样能大大降低算法的时空复杂度。
对于算法collapsed Gibbs sampler,它的核心就是对单词j基于以下条件概率进行抽样:
P(zj|zN∖j,wN)∝n(wj)zj,N∖j+βn(dj)zj,N∖j+αn(∙)zj,N∖j+Wβn(dj)∙,N∖j+Tα
其中ZN∖j表示(z1,...,zj−1,zj+1,...,zN),W是vocabulary的大小,也就是不同单词的个数。n(wj)zj,N∖j表示当前iteration时,单词wj被分配为主题zj的次数,n(∙)zj,N∖j是所有词被分配为主题zj的个数,等等。
经过算法
1: initialize zN randomly from 1,...,TN
2: loop
3: choose j from {1,…,N}
4: sample zj from P(zj|zN∖j,wN)
收敛到后验概率分布 P(zN|wN)。也就得到了我们所希望求得的每个词所属主题。
相关文章推荐
- 书评:《算法之美( Algorithms to Live By )》
- 动易2006序列号破解算法公布
- Ruby实现的矩阵连乘算法
- C#插入法排序算法实例分析
- 超大数据量存储常用数据库分表分库算法总结
- C#数据结构与算法揭秘二
- C#冒泡法排序算法实例分析
- 算法练习之从String.indexOf的模拟实现开始
- C#算法之关于大牛生小牛的问题
- C#实现的算24点游戏算法实例分析
- c语言实现的带通配符匹配算法
- 浅析STL中的常用算法
- 算法之排列算法与组合算法详解
- C++实现一维向量旋转算法
- Ruby实现的合并排序算法
- C#折半插入排序算法实现方法
- 基于C++实现的各种内部排序算法汇总
- C++线性时间的排序算法分析
- C++实现汉诺塔算法经典实例
- PHP实现克鲁斯卡尔算法实例解析