您的位置:首页 > 其它

关于LDA的一些思考

2017-06-07 20:48 267 查看
问1:LDA生成一个文档的过程是什么样的?

答1:1)根据预料级参数α,生成文档d的主题分布Θ_d~p(Θ|α)

2)对于文档d中每个位置i对应的单词,按如下方式生成

2.1)根据主题分布Θ_d,按概率生成该位置i的主题z_i~p(z|Θ_d)

2.2)根据主题z_i和语料级参数β,按概率生成该位置i的词w_i~p(z|z_i,β)

3)生成一篇文档联合概率为:p(Θ,Z,W|α,β)=p(Θ|α)*∏p(z_i|Θ)*p(w_i|z_i,β)

  

问2:LDA怎样使用吉布斯采样进行模型训练?

答2:1)随机初始化:对文档中每个词w,随机分配topic编号z

2)重新扫描语料库,对每个词w按照吉布斯采样公式,按照概率生成新的topic,在语料中进行更新

3)重复以上采样过程,直到吉布斯采样收敛

4)统计语料库的topic-word共现频率矩阵,该矩阵就是LDA的模型

问3:LDA怎样使用吉布斯采样进行模型预测?

答3:1)随机初始化:对文档中每个词w,随机分配topic编号z

2)重新扫描语料库,对每个词w按照吉布斯采样公式,按照概率生成新的topic,在语料中进行更新

3)重复以上采样过程,直到吉布斯采样收敛

4)统计文档的topic分布

5)注:模型与测试topic-word共现频率矩阵不更新

问4:LDA中吉布斯采样公式是什么?

答4:1)参数α为向量,对应每个topic的值为α_k

2)参数β为向量,对应每个词的值为β_t

3)忽略第m篇文档中第i个单词,文档m属于主题k的频次n_m_k定义为:文档中主题k的单词的个数(不包括第i个单词)

4)忽略第m篇文档中第i个单词,主题k下词t的频次n_k_t定义为:主题k下所有文档中词t的个数(不包括文档m中第i个词)

5)第m篇文档,第i个单词,属于主题k的概率如下:p(z=k|d=m,t=i)∝((n_m_k+α_k)/∑_k(n_m_k+α_k))*((n_k_t+β_t)/∑_t(n_k_t+β_t))
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息