Word2vec的词聚类结果与LDA的主题词聚类结果,有什么不同?
2016-03-21 22:46
260 查看
简单的说,词向量所体现的是语义(semantic)和语法(syntactic)这些 low-level的信息。而LDA的主题词表现的是更 high-level的文章主题(topic)这一层的信息。
所以Word2vec的一些比较精细的应用,LDA是做不了的。比如:
1)计算词的相似度。同样在电子产品这个主题下,“苹果”是更接近于“三星”还是“小米”?
2)词的类比关系:vector(小米)- vector(苹果)+ vector(乔布斯)近似于 vector(雷军)。
3)计算文章的相似度。这个LDA也能做但是效果不好。而用词向量,即使在文章topic接近的情况下,计算出的相似度也能体现相同、相似、相关的区别。
反过来说,想用词向量的聚类去得到topic这一级别的信息也是很难的。很有可能,“苹果”和“小米”被聚到了一类,而“乔布斯”和“雷军”则聚到另一类。
这种差别,本质上说是因为Word2vec利用的是词与上下文的共现,而LDA利用的是词与文章之间的共现。
PS. 说起来,拿LDA和doc2vec比较才比较合理啊
链接:https://www.zhihu.com/question/26680505/answer/34014109
所以Word2vec的一些比较精细的应用,LDA是做不了的。比如:
1)计算词的相似度。同样在电子产品这个主题下,“苹果”是更接近于“三星”还是“小米”?
2)词的类比关系:vector(小米)- vector(苹果)+ vector(乔布斯)近似于 vector(雷军)。
3)计算文章的相似度。这个LDA也能做但是效果不好。而用词向量,即使在文章topic接近的情况下,计算出的相似度也能体现相同、相似、相关的区别。
反过来说,想用词向量的聚类去得到topic这一级别的信息也是很难的。很有可能,“苹果”和“小米”被聚到了一类,而“乔布斯”和“雷军”则聚到另一类。
这种差别,本质上说是因为Word2vec利用的是词与上下文的共现,而LDA利用的是词与文章之间的共现。
PS. 说起来,拿LDA和doc2vec比较才比较合理啊
链接:https://www.zhihu.com/question/26680505/answer/34014109
相关文章推荐
- 安卓文件写入与读取
- Codeforces Beta Round #5 B. Center Alignment 模拟题
- linux IPC总结——管道
- (1)把一个英语句子中的单词次序颠倒后输出。例如输入“how are you”,输出“you are how”; (2)编写单元测试进行测试; (3)用ElcEmma查看代码覆盖率,要求覆盖率达到100%。
- 《软件工程》前三章读后感
- Servlet和jsp小应用
- 常用的Xcode插件
- python系列之 RabbitMQ -- TOPICS
- Impala 1、Impala理论
- Hibernate逍遥游记-第15章处理并发问题-001事务并发问题及隔离机制介绍
- Problem D: 最小节点(线性表)
- CreateWindowEx()自定义窗口句柄,消息处理
- 构建之法:1、2、3章阅读后感
- Android之性能优化
- HDU 5365 Run [Ad Hoc]
- ActionMode使用及样式配置
- Spring和MyBatis环境整合
- 关于MVC中利用Javascript跳转页面的问题的备忘
- Android中visibility属性VISIBLE、INVISIBLE、GONE的区别
- 变量、常量及输入处理