您的位置:首页 > 其它

贝叶斯应用_文本分析_理论支持

2018-09-07 00:00 141 查看

一:停用词
语料中大量出现却没什么作用的词
二:词频(TF)
词频(TF)=某词在文章中的出现次数 / 该文章所有词的出现次数
三:逆文档频率(IDF)
逆文档频率(IDF)=log( 语料库的文档总数 / (包含该词的文档树+1) )
四:Tf-idf 关键词提取
Tf-idf=TF * IDF
五:相似度
对需要求相似度的两个中文句子进行 分词-构建语料库-词频-词频向量-求余弦
六:相似度举例
句子A:我喜欢看电视,不喜欢看电影。
句子B:我不喜欢看电视,也不喜欢看电影。
分词:
句子A:我/喜欢/看/电视,不/喜欢/看/电影。
句子B:我/不/喜欢/看/电视,也/不/喜欢/看/电影。
语料库: 我,喜欢,看,电视,电影,不,也。
词频:
句子A:我 1,喜欢 2,看 2,电视 1,电影 1,不 1,也 0。
句子B:我 1,喜欢 2,看 2,电视 1,电影 1,不 2,也 1。
词频向量:
句子A:[1, 2, 2, 1, 1, 1, 0]
句子B:[1, 2, 2, 1, 1, 2, 1]

阅读更多
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: