计算文章TF-IDF
2015-12-02 18:08
183 查看
#coding:utf-8
import jieba
import jieba.analyse #计算tf-idf需要调用此模块jieba.analyse
stopkey=[line.strip().decode('utf-8') for line in open('stopkey.txt').readlines()]
#将停止词文件保存到列表stopkey,停止词在网上下载的。
neirong = open(r"ceshi1.txt","r").read() #导入需要计算的内容
zidian={}
fenci=jieba.cut_for_search(neirong) #搜索引擎模式分词
for fc in fenci:
if fc in zidian:
zidian[fc]+=1 #字典中如果存在键,键值加1,
else:
zidian.setdefault(fc,1) #字典中如果不存在键,就加入键,键值设置为1
quanzhong=jieba.analyse.extract_tags(neirong,topK=20) #计算tf-idf,输出前20的权重词。
for qg in quanzhong:
if qg in stopkey: #如果qg存在停止词stopkey里面,则pass
pass
else: #不存在的话就输出qg和出现qg的次数
print qg+","+`zidian[qg]` #输出权重词和权重词出现的次数
import jieba
import jieba.analyse #计算tf-idf需要调用此模块jieba.analyse
stopkey=[line.strip().decode('utf-8') for line in open('stopkey.txt').readlines()]
#将停止词文件保存到列表stopkey,停止词在网上下载的。
neirong = open(r"ceshi1.txt","r").read() #导入需要计算的内容
zidian={}
fenci=jieba.cut_for_search(neirong) #搜索引擎模式分词
for fc in fenci:
if fc in zidian:
zidian[fc]+=1 #字典中如果存在键,键值加1,
else:
zidian.setdefault(fc,1) #字典中如果不存在键,就加入键,键值设置为1
quanzhong=jieba.analyse.extract_tags(neirong,topK=20) #计算tf-idf,输出前20的权重词。
for qg in quanzhong:
if qg in stopkey: #如果qg存在停止词stopkey里面,则pass
pass
else: #不存在的话就输出qg和出现qg的次数
print qg+","+`zidian[qg]` #输出权重词和权重词出现的次数
![](http://bbs.itseo.net/data/attachment/forum/201403/31/112727agiw99kzlzib7cgq.jpg)
相关文章推荐
- 12月2号 Xcode的简单使用及几种变量类型
- js操作cookie
- 设计模式第十一课 中介者模式 Mediator Pattern
- String定义字符串,实际操作
- 使用Spring JdbcTemplate实现CLOB和BLOB的存取
- unity3d5.2.3中 调整视角
- 基本数据类型,代码实际操作
- POJ 2492 并查集扩展(判断同性恋问题)
- jQuery-1.9.1源码分析系列(十五) 动画处理
- 草稿1
- 01-2安装离线springsource-tool-suite的时候非常缓慢问题解决方案
- python 实现 Centos 7.1 下系统自动分区并mount到/data*
- python FTP上传和下载文件
- logstash日志系统搭建
- Springfox swagger-ui 覆盖默认request host
- 【转】ldconfig和ldd用法
- 浏览器的缓存就是关闭了浏览器任然存在
- 如何修改Android应用程序的图标和名字? .
- SVN本地仓库
- MVC框架模式