文章标题
2017-01-11 22:02
211 查看
TF-IDF:计算文档词频的加权算法
TF
TF:term frequency 词频IDF
逆文档率log(总文档数/(含词频的文档数+1))
TF-IDF
=TF*IDF以上是计算词频的权重
余弦相似(这个是计算文档的相似性)
a:利用TF-IDF进行分词,对文档的分词利用余弦公式求距离,越相似,余弦值越大余弦公式:cos(theta)=(a^2+b^2-c^2)/2ab