您的位置:首页 > 其它

计算文章TF-IDF

2015-12-02 18:08 183 查看
#coding:utf-8
import jieba
import jieba.analyse #计算tf-idf需要调用此模块jieba.analyse
stopkey=[line.strip().decode('utf-8') for line in open('stopkey.txt').readlines()]
#将停止词文件保存到列表stopkey,停止词在网上下载的。
neirong = open(r"ceshi1.txt","r").read() #导入需要计算的内容
zidian={}

fenci=jieba.cut_for_search(neirong) #搜索引擎模式分词
for fc in fenci:

if fc in zidian:
zidian[fc]+=1 #字典中如果存在键,键值加1,
else:
zidian.setdefault(fc,1) #字典中如果不存在键,就加入键,键值设置为1

quanzhong=jieba.analyse.extract_tags(neirong,topK=20) #计算tf-idf,输出前20的权重词。

for qg in quanzhong:
if qg in stopkey: #如果qg存在停止词stopkey里面,则pass
pass
else: #不存在的话就输出qg和出现qg的次数
print qg+","+`zidian[qg]` #输出权重词和权重词出现的次数

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: