使用jieba分词对中文文档进行分词|停用词去重
2016-11-27 11:02
681 查看
1.使用jieba分词对中文文档进行分词
# -*- coding: utf-8 -*- # @Time : 17-8-4 上午9:26 # @Author : 未来战士biubiu!! # @FileName: test.py # @Software: PyCharm Community Edition # @Blog :http://blog.csdn.net/u010105243/article/ # Python3 import jieba # jieba.load_userdict('userdict.txt') # 创建停用词list def stopwordslist(filepath): stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()] return stopwords # 对句子进行分词 def seg_sentence(sentence): sentence_seged = jieba.cut(sentence.strip()) stopwords = stopwordslist('./test/stopwords.txt') # 这里加载停用词的路径 outstr = '' for word in sentence_seged: if word not in stopwords: if word != '\t': outstr += word outstr += " " return outstr inputs = open('./test/input.txt', 'r', encoding='utf-8') outputs = open('./test/output.txt', 'w') for line in inputs: line_seg = seg_sentence(line) # 这里的返回值是字符串 outputs.write(line_seg + '\n') outputs.close() inputs.close()
2.停用词表去重
从网上收集来的停用词可能有重复的,下面的代码去重# 停用词表按照行进行存储,每一行只有一个词语 # python3 def stopwd_reduction(infilepath, outfilepath): infile = open(infilepath, 'r', encoding='utf-8') outfile = open(outfilepath, 'w') stopwordslist = [] for str in infile.read().split('\n'): if str not in stopwordslist: stopwordslist.append(str) outfile.write(str + '\n') stopwd_reduction('./test/stopwords.txt', './test/stopword.txt')
3停用词词表
根据自己的需要合并的中文停用词词表,需要的可以下载下载地址相关文章推荐
- 使用Python+jieba和java+庖丁分词在Spark集群上进行中文分词统计
- 使用Python+jieba和java+庖丁分词在Spark集群上进行中文分词统计
- 使用jieba进行数据预处理(分词,过滤停用词及标点,获取词频、关键词等)
- 使用python jieba库进行中文分词
- python使用jieba实现中文分词去停用词方法示例
- 使用python 的结巴(jieba)库进行中文分词
- 使用Python,字标注及最大熵法进行中文分词
- 使用IKAnalyzer进行中文分词
- 利用jieba对多个中文txt文本进行分词
- python27使用jieba分词,去除停用词
- 使用pymmseg进行中文分词
- IKAnalyzer使用停用词词典进行分词
- 使用python对中文文档进行词频统计
- 使用中文分词工具切分ArcGIS在线文档
- 使用IKAnalyzer进行中文分词
- 使用ICTCLA api进行中文分词实验的过程备忘
- 使用C++实现mmseg,对中文句子进行分词
- [python] 使用Jieba工具中文分词及文本聚类概念
- Python使用jieba分词并用weka进行文本分类