您的位置：首页 > 其它

计算文章TF-IDF

2015-12-02 18:08 183 查看

#coding:utf-8
import jieba
import jieba.analyse #计算tf-idf需要调用此模块jieba.analyse
stopkey=[line.strip().decode('utf-8') for line in open('stopkey.txt').readlines()]
#将停止词文件保存到列表stopkey，停止词在网上下载的。
neirong = open(r"ceshi1.txt","r").read() #导入需要计算的内容
zidian={}

fenci=jieba.cut_for_search(neirong) #搜索引擎模式分词
for fc in fenci:

if fc in zidian:
zidian[fc]+=1 #字典中如果存在键，键值加1，
else:
zidian.setdefault(fc,1) #字典中如果不存在键，就加入键，键值设置为1

quanzhong=jieba.analyse.extract_tags(neirong,topK=20) #计算tf-idf，输出前20的权重词。

for qg in quanzhong:
if qg in stopkey: #如果qg存在停止词stopkey里面，则pass
pass
else: #不存在的话就输出qg和出现qg的次数
print qg+","+`zidian[qg]` #输出权重词和权重词出现的次数

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航