您的位置：首页 > 其它

关于LDA的一些思考

2017-06-07 20:48 267 查看

问1：LDA生成一个文档的过程是什么样的？

答1：1）根据预料级参数α，生成文档d的主题分布Θ_d~p(Θ|α)

2）对于文档d中每个位置i对应的单词，按如下方式生成

2.1）根据主题分布Θ_d，按概率生成该位置i的主题z_i~p(z|Θ_d)

2.2）根据主题z_i和语料级参数β，按概率生成该位置i的词w_i~p(z|z_i,β)

3）生成一篇文档联合概率为：p(Θ,Z,W|α,β)=p(Θ|α)*∏p(z_i|Θ)*p(w_i|z_i,β)

问2：LDA怎样使用吉布斯采样进行模型训练？

答2：1）随机初始化：对文档中每个词w，随机分配topic编号z

2）重新扫描语料库，对每个词w按照吉布斯采样公式，按照概率生成新的topic，在语料中进行更新

3）重复以上采样过程，直到吉布斯采样收敛

4）统计语料库的topic-word共现频率矩阵，该矩阵就是LDA的模型

问3：LDA怎样使用吉布斯采样进行模型预测？

答3：1）随机初始化：对文档中每个词w，随机分配topic编号z

2）重新扫描语料库，对每个词w按照吉布斯采样公式，按照概率生成新的topic，在语料中进行更新

3）重复以上采样过程，直到吉布斯采样收敛

4）统计文档的topic分布

5）注：模型与测试topic-word共现频率矩阵不更新

问4：LDA中吉布斯采样公式是什么？

答4：1）参数α为向量，对应每个topic的值为α_k

2）参数β为向量，对应每个词的值为β_t

3）忽略第m篇文档中第i个单词，文档m属于主题k的频次n_m_k定义为：文档中主题k的单词的个数（不包括第i个单词）

4）忽略第m篇文档中第i个单词，主题k下词t的频次n_k_t定义为：主题k下所有文档中词t的个数（不包括文档m中第i个词）

5）第m篇文档，第i个单词，属于主题k的概率如下：p(z=k|d=m,t=i)∝((n_m_k+α_k)/∑_k(n_m_k+α_k))*((n_k_t+β_t)/∑_t(n_k_t+β_t))

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： nlp 吉布斯采样自然语言处理 LDA

相关文章推荐

新的分享

章节导航