您的位置:首页 > 其它

文档的相似性可以使用Shingling算法进行比较

2016-01-11 18:29 253 查看
1、文档的相似性,可以将文档转化为集合,然后计算二个集合的交集,如果交集越大,则二个文档越相似,否则不相似。

可以使用Jaccard=|S交T|/|S并T|



2、可以使用shingling算法,将文档变成一个集合。

k—shingle 就是将一个文档变成长度为k的字符串的集合,如果元素重复,则只保留一个。如果把集合看成包,就可以记载重复字符串出现的次数。

对于k的选择时非常重要的。



3、k的选择很重要



4、将一片文档变成字符串的集合,将会造成数据量的增加,因此可以使用Hash函数,将字符串转化为一个整形的数值,减少存储的空间。



5、基于词的Shingle

这个思想主要就是 使用停用词+后续的几个词 构成Shingle集合中的一个元素。这样可以区分内容,而忽略其它的因素。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: