您的位置：首页 > 其它

Word2vec的词聚类结果与LDA的主题词聚类结果，有什么不同？

2016-03-21 22:46 260 查看

简单的说，词向量所体现的是语义（semantic）和语法（syntactic）这些 low-level的信息。而LDA的主题词表现的是更 high-level的文章主题（topic）这一层的信息。

所以Word2vec的一些比较精细的应用，LDA是做不了的。比如：

1）计算词的相似度。同样在电子产品这个主题下，“苹果”是更接近于“三星”还是“小米”？

2）词的类比关系：vector（小米）- vector（苹果）+ vector（乔布斯）近似于 vector（雷军）。

3）计算文章的相似度。这个LDA也能做但是效果不好。而用词向量，即使在文章topic接近的情况下，计算出的相似度也能体现相同、相似、相关的区别。

反过来说，想用词向量的聚类去得到topic这一级别的信息也是很难的。很有可能，“苹果”和“小米”被聚到了一类，而“乔布斯”和“雷军”则聚到另一类。

这种差别，本质上说是因为Word2vec利用的是词与上下文的共现，而LDA利用的是词与文章之间的共现。

PS. 说起来，拿LDA和doc2vec比较才比较合理啊

链接：https://www.zhihu.com/question/26680505/answer/34014109

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航