关于LDA的一些思考
2017-06-07 20:48
267 查看
问1:LDA生成一个文档的过程是什么样的?
答1:1)根据预料级参数α,生成文档d的主题分布Θ_d~p(Θ|α)
2)对于文档d中每个位置i对应的单词,按如下方式生成
2.1)根据主题分布Θ_d,按概率生成该位置i的主题z_i~p(z|Θ_d)
2.2)根据主题z_i和语料级参数β,按概率生成该位置i的词w_i~p(z|z_i,β)
3)生成一篇文档联合概率为:p(Θ,Z,W|α,β)=p(Θ|α)*∏p(z_i|Θ)*p(w_i|z_i,β)
问2:LDA怎样使用吉布斯采样进行模型训练?
答2:1)随机初始化:对文档中每个词w,随机分配topic编号z
2)重新扫描语料库,对每个词w按照吉布斯采样公式,按照概率生成新的topic,在语料中进行更新
3)重复以上采样过程,直到吉布斯采样收敛
4)统计语料库的topic-word共现频率矩阵,该矩阵就是LDA的模型
问3:LDA怎样使用吉布斯采样进行模型预测?
答3:1)随机初始化:对文档中每个词w,随机分配topic编号z
2)重新扫描语料库,对每个词w按照吉布斯采样公式,按照概率生成新的topic,在语料中进行更新
3)重复以上采样过程,直到吉布斯采样收敛
4)统计文档的topic分布
5)注:模型与测试topic-word共现频率矩阵不更新
问4:LDA中吉布斯采样公式是什么?
答4:1)参数α为向量,对应每个topic的值为α_k
2)参数β为向量,对应每个词的值为β_t
3)忽略第m篇文档中第i个单词,文档m属于主题k的频次n_m_k定义为:文档中主题k的单词的个数(不包括第i个单词)
4)忽略第m篇文档中第i个单词,主题k下词t的频次n_k_t定义为:主题k下所有文档中词t的个数(不包括文档m中第i个词)
5)第m篇文档,第i个单词,属于主题k的概率如下:p(z=k|d=m,t=i)∝((n_m_k+α_k)/∑_k(n_m_k+α_k))*((n_k_t+β_t)/∑_t(n_k_t+β_t))
答1:1)根据预料级参数α,生成文档d的主题分布Θ_d~p(Θ|α)
2)对于文档d中每个位置i对应的单词,按如下方式生成
2.1)根据主题分布Θ_d,按概率生成该位置i的主题z_i~p(z|Θ_d)
2.2)根据主题z_i和语料级参数β,按概率生成该位置i的词w_i~p(z|z_i,β)
3)生成一篇文档联合概率为:p(Θ,Z,W|α,β)=p(Θ|α)*∏p(z_i|Θ)*p(w_i|z_i,β)
问2:LDA怎样使用吉布斯采样进行模型训练?
答2:1)随机初始化:对文档中每个词w,随机分配topic编号z
2)重新扫描语料库,对每个词w按照吉布斯采样公式,按照概率生成新的topic,在语料中进行更新
3)重复以上采样过程,直到吉布斯采样收敛
4)统计语料库的topic-word共现频率矩阵,该矩阵就是LDA的模型
问3:LDA怎样使用吉布斯采样进行模型预测?
答3:1)随机初始化:对文档中每个词w,随机分配topic编号z
2)重新扫描语料库,对每个词w按照吉布斯采样公式,按照概率生成新的topic,在语料中进行更新
3)重复以上采样过程,直到吉布斯采样收敛
4)统计文档的topic分布
5)注:模型与测试topic-word共现频率矩阵不更新
问4:LDA中吉布斯采样公式是什么?
答4:1)参数α为向量,对应每个topic的值为α_k
2)参数β为向量,对应每个词的值为β_t
3)忽略第m篇文档中第i个单词,文档m属于主题k的频次n_m_k定义为:文档中主题k的单词的个数(不包括第i个单词)
4)忽略第m篇文档中第i个单词,主题k下词t的频次n_k_t定义为:主题k下所有文档中词t的个数(不包括文档m中第i个词)
5)第m篇文档,第i个单词,属于主题k的概率如下:p(z=k|d=m,t=i)∝((n_m_k+α_k)/∑_k(n_m_k+α_k))*((n_k_t+β_t)/∑_t(n_k_t+β_t))
相关文章推荐
- 关于.NET WEB应用系统UI层的一些思考
- 关于面向构件和EOS的一些思考-软件开发和传统行业应该怎么对比
- 关于软件开发团队的一些思考
- 关于SOA的一些深度思考
- 关于 sizeof() 的一些思考
- 关于Rainbow的一些思考
- 关于C++0x内存模型和序列点的一些思考
- 关于开发环境的一些思考
- 关于程序的一些零碎思考
- 关于改善管理过程的一些思考
- [转帖] 关于sizeof()的一些思考
- 关于Blog现象的一些思考。
- 关于Blog现象的一些思考。
- 关于性开放引发的一些思考
- 最近项目中一些关于代码编写管理的一些思考
- 关于面向构件和EOS的一些思考-xml和元数据解决了接口脆弱性问题吗?
- 开发购物网站的第一步--关于制作前的一些思考
- 关于Winnt/2k IDT的一些思考(续)
- 关于软件开发团队的一些思考
- 关于 sizeof() 的一些思考