您的位置:首页 > 其它

使用collapsed gibbs sampling对LDA中参数进行估计的推导过程

2015-03-21 21:49 357 查看
使用

来表示文档--主题分布

的超参数,使用



来表示主题--词汇分布

的超参数,这些超参数的先验分布被定义在一个狄利克莱分布中,如下所示:



在给定参数

的情况下,所有隐变量(主题)的概率被定义在一个多项式分布

中,其中

表示在文档m中,被赋给主题k的词汇数量。

在给定参数

的情况下,所有可观测变量(单词)的概率和所有的隐变量被定义在一个多项式分布

中,其中

表示语料库中单词v被赋予主题z的次数。

注意,在以上两个公式中,我们假设在给定参数的情况下,所有变量均独立于超参数。

在给定超参数的情况下,所有变量(包括参数)的联合分布被定义如下:



在获取这个联合概率后,我们准备积分掉所有的参数:





最终所得内容使用了公式8(也即公式9上面的推导内容)的结果,同时也使用了gamma公式的一个重要性质:


内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐