利用结巴分词的Python版本实现分词并统计词频
2017-07-12 10:35
846 查看
最近在做文本处理,统计词频这个东西大家都熟悉了,直接贴代码方便以后找吧
Python 版本
Python 3.5.2 |Anaconda 4.2.0 (64-bit)|#!/usr/bin/python # -*- coding:utf-8 -*- import sys import importlib importlib.reload(sys) import jieba import jieba.analyse import xlwt # 写入Excel表的库 if __name__ == "__main__": wbk = xlwt.Workbook(encoding='ascii') sheet = wbk.add_sheet("wordCount") # Excel单元格名字 word_lst = [] key_list = [] for line in open('1.txt',encoding= 'utf-8'): # 1.txt是需要分词统计的文档 item = line.strip('\n\r').split('\t') # 制表格切分 # print item tags = jieba.analyse.extract_tags(item[0]) # jieba分词 for t in tags: word_lst.append(t) word_dict = {} with open("wordCount.txt", 'w') as wf2: # 打开文件 for item in word_lst: if item not in word_dict: # 统计数量 word_dict[item] = 1 else: word_dict[item] += 1 orderList = list(word_dict.values()) orderList.sort(reverse=True) # print orderList for i in range(len(orderList)): for key in word_dict: if word_dict[key] == orderList[i]: wf2.write(key + ' ' + str(word_dict[key]) + '\n') # 写入txt文档 key_list.append(key) word_dict[key] = 0 for i in range(len(key_list)): sheet.write(i, 1, label=orderList[i]) sheet.write(i, 0, label=key_list[i]) wbk.save('wordCount.xls') # 保存为 wordCount.xls文件
需要在python程序同级目录新建三个文件
1.txt
wordCount.txt
wordCount.xls
1.txt存放待处理文本,其余两个空白即可
相关文章推荐
- python结巴分词以及词频统计实例
- python3结巴分词分行拆分统计词频
- Python简单词频统计以及格式合并实现
- 利用redis的订阅和发布来实现实时监控的一个DEMO(Python版本)
- 用python通过结巴分词对语料库进行分词初步实现word2vec
- python进行中文分词、词性标注、词频统计
- Python 结巴分词实现关键词抽取分析
- 用python打造中英文词频统计系统(1)--利用tkinter设计图形化界面
- Python 3.6 利用NLTK 统计多个文本中的词频
- Python分词并进行词频统计
- (改进)Python语言实现词频统计
- Python jieba 中文分词与词频统计
- 利用函数统计输入字符中字母、空格、数字和其他字符个数(Python实现)
- 【python 编程】网页中文过滤分词及词频统计
- Python实现中文小说词频统计
- 【Python】利用setdefault函数实现dict的转置(key与value对互换),统计value出现的次数
- IK Analyzer分词及词频统计Java简单实现
- 【自然语言处理入门】01:利用jieba对数据集进行分词,并统计词频
- python jieba分词并统计词频后输出结果到Excel和txt文档
- 使用Python+NLTK实现英文单词词频统计