LDA Topic Model Matlab 代码简介
2015-01-27 22:03
555 查看
用Google搜索LDA topic模型代码似乎只有这个网址:http://psiexp.ss.uci.edu/research/programs_data/toolbox.htm
比较靠谱。师弟在用,我这里大概讲一下。主要的就是参数的意思。
主要的函数是:
参数主要有WS,DS,T,剩下的都是一些不关键的数据。
WS表示的是Word的分布,DS表示的是Document的分布
假设我们有词典里面有8000个单词。
WS是一个1*10000的向量,那么WS里面min为1,max就是8000.
同样的DS也是一个1*10000的向量,这里的min为1,max表示的就是document的数量。
WS和DS是一一对应的,假设WS(1,9)=389,DS(1,9) = 103.
表示的就是第389个单词在第103个文档里面。
T表示的最终提取的Topic的个数。N是迭代次数,剩下的参数我们选择默认的就可以。
这样输出的结果是WP,DP,Z。
WP表示的是word和topic之间的关系,我们可以说是概率分布。
DP表示的是document和topic之间的关系,或概率分布。
Z是什么我还真没分析出来,知道的同学可以告诉我。
怎么得到最好的topic分布呢。
如果你的T,也就是topic数量设为50,那么WP就是一个8000*50的矩阵。
8000就是上面说的单词,WP(i,j)表示的就是第i个单词在第j个topic里面的权重。
所以我们就可以根据这个权重来排序,从而得到每个topic里面的单词。
例如我们去WP(:,j)这一列表示的就是对于第J个topic。每个单词的权重,
按照降序排列,我们再取前10个单词,于是就得到了topic J。
具体的概率计算可以参考函数:
比较靠谱。师弟在用,我这里大概讲一下。主要的就是参数的意思。
主要的函数是:
GibbsSamplerLDA( WS , DS , T , N , ALPHA , BETA , SEED , OUTPUT );
参数主要有WS,DS,T,剩下的都是一些不关键的数据。
WS表示的是Word的分布,DS表示的是Document的分布
假设我们有词典里面有8000个单词。
WS是一个1*10000的向量,那么WS里面min为1,max就是8000.
同样的DS也是一个1*10000的向量,这里的min为1,max表示的就是document的数量。
WS和DS是一一对应的,假设WS(1,9)=389,DS(1,9) = 103.
表示的就是第389个单词在第103个文档里面。
T表示的最终提取的Topic的个数。N是迭代次数,剩下的参数我们选择默认的就可以。
这样输出的结果是WP,DP,Z。
WP表示的是word和topic之间的关系,我们可以说是概率分布。
DP表示的是document和topic之间的关系,或概率分布。
Z是什么我还真没分析出来,知道的同学可以告诉我。
怎么得到最好的topic分布呢。
如果你的T,也就是topic数量设为50,那么WP就是一个8000*50的矩阵。
8000就是上面说的单词,WP(i,j)表示的就是第i个单词在第j个topic里面的权重。
所以我们就可以根据这个权重来排序,从而得到每个topic里面的单词。
例如我们去WP(:,j)这一列表示的就是对于第J个topic。每个单词的权重,
按照降序排列,我们再取前10个单词,于是就得到了topic J。
具体的概率计算可以参考函数:
WriteTopics( WP , BETA , WO , 10 , 0.7 , 4 , 'topics.txt' );
相关文章推荐
- 【LDA】话题模型(topic model)的提出及发展历史
- 基于LDA的Topic Model变形
- TopicModel主题模型 - LDA主题模型的评估
- 【论文阅读:LDA】The Author-Topic Model for Authors and Documents_2004(ATM经典论文)
- 9-基于LDA的Topic Model变形
- 基于LDA的Topic Model变形
- [教程] 卡尔曼滤波简介及其算法实现代码(C++/C/MATLAB)
- topic model之LDA
- LDA算法-matlab代码实现
- 基于LDA的Topic Model变形
- 卡尔曼滤波简介及其算法实现代码(C++/C/MATLAB)
- 基于LDA的Topic Model变形
- 【NLP基础】基于LDA的Topic Model变形
- 【转】基于LDA的Topic Model变形
- EasyFastCMS系列教学课程——2、底层代码 ModelHelper与SQLHelper简介
- 【LDA】基于LDA的Topic Model变形
- 转:基于LDA的Topic Model变形
- 卡尔曼滤波简介及其算法实现代码(C++/C/MATLAB)
- 学习Topic Model(主题模型)--Latent Dirichlet Allocation(LDA) 的一些摘要
- 卡尔曼滤波简介说明及其算法MATLAB实现代码