如何计算两个文档的相似度
2015-07-29 18:00
447 查看
一、TF-IDF、余弦相似度、向量空间模型
(1)使用TF-IDF算法,找出两篇文章的关键词;
(2)每篇文章各取出若干个关键词(比如20个),合并成一个集合,计算每篇文章对于这个集合中的词的词频(为了避免文章长度的差异,可以使用相对词频);
(3)生成两篇文章各自的词频向量;
(4)计算两个向量的余弦相似度,值越大就表示越相似。
二、SVD和LSI
LSA(潜在语义分析)的基本思路:LSA希望通过降低传统向量空间的维度来去除空间中的“噪音”,而降维可以通过SVD实现,因此首先对Term-Document矩阵进行SVD分解,然后降维并构造语义空间。
(奇异值分解详解:http://blog.csdn.net/wangzhiqing3/article/details/7446444#comments)
三、LDA
(1)使用TF-IDF算法,找出两篇文章的关键词;
(2)每篇文章各取出若干个关键词(比如20个),合并成一个集合,计算每篇文章对于这个集合中的词的词频(为了避免文章长度的差异,可以使用相对词频);
(3)生成两篇文章各自的词频向量;
(4)计算两个向量的余弦相似度,值越大就表示越相似。
二、SVD和LSI
LSA(潜在语义分析)的基本思路:LSA希望通过降低传统向量空间的维度来去除空间中的“噪音”,而降维可以通过SVD实现,因此首先对Term-Document矩阵进行SVD分解,然后降维并构造语义空间。
(奇异值分解详解:http://blog.csdn.net/wangzhiqing3/article/details/7446444#comments)
三、LDA
相关文章推荐
- 值得推荐的android开源框架
- ArrayList的使用方法
- python设计模式之代理模式
- openfire学习1
- VS2008 C++调用DLL 静态链接
- iOS开发——网络编程OC篇&GCDAsyncSocket编程
- Xamarin Insights
- 我的游戏开发笔记(一):完善并把u3d自带的ThirdPersonController.js改成cs版本
- Asp.Net 5
- Java编程思想:第2章 一切都是对象
- spring 多线程
- 文章标题
- iOS 在UILabel显示不同的颜色和字体
- monogdb复制原理详解
- 2015 多校第三场 Solve this interesting problem
- HTTP1.1中CHUNKED编码解析 http://blog.csdn.net/zhangboyj/article/details/6236780
- sublime text安装插件出现问题
- Ubuntu下搭建nfs服务器
- 云服务的负载均衡描述
- 打印1到最大的n位数