使用pymmseg进行中文分词
2012-03-20 22:33
260 查看
python分词模块,基于mmseg算法编写,核心代码c++,提供python接口。
最近在做BUG质量分析的时候,要提取BUG关键词,正好用到的pymmseg这分词模块,分词的效率还不错。
Code Example:
最近在做BUG质量分析的时候,要提取BUG关键词,正好用到的pymmseg这分词模块,分词的效率还不错。
Code Example:
#-*- coding: utf-8 -*- from pymmseg import mmseg import os import sys def CWS_pymmseg(shortdeslist,wordlist): if os.path.isfile(shortdeslist): mmseg.dict_load_defaults() sd = open(shortdeslist,'r') word = open(wordlist,'w') for bugdes in sd.readlines(): algor = mmseg.Algorithm(bugdes) wlist = [] for tok in algor: wlist.append(tok.text + "\n") word.writelines(wlist) sd.close() word.close() print "CWSeg_pymmseg is OK ! %s ==> %s" % (shortdeslist,wordlist) else: print "ERROR : The file ,shortdeslist doesn't exist!" if __name__ == '__main__': if len(sys.argv) == 3: CWS_pymmseg(sys.argv[1],sys.argv[2]) else: print "Usage: python CWS_pymmseg.py [shortdeslist] [wordlist]"
相关文章推荐
- 使用pymmseg进行中文分词
- python中文分词,使用结巴分词对python进行分词
- 使用python对中文文本进行分词
- 使用继续完善前人写的文章:使用ICTCLAS JAVA版(ictclas4j)进行中文分词
- python中文分词,使用结巴分词对python进行分词(实例讲解)
- 使用R语言进行中文分词
- 使用IKAnalyzer进行中文分词
- 使用ictclas4j进行中文分词
- 使用Postgresql进行中文分词
- python中文分词,使用结巴分词对python进行分词
- 使用ES对中文文章进行分词,并进行词频统计排序
- 使用python 的结巴(jieba)库进行中文分词
- 使用C++实现mmseg,对中文句子进行分词
- 使用ICTCLA api进行中文分词实验的过程备忘
- 使用zend Framework的lucene进行全文检索——中文分词
- 使用最大逆向法,利用python进行简易中文分词
- 使用jieba分词对中文文档进行分词|停用词去重
- 使用ICTCLAS JAVA版(ictclas4j)进行中文分词
- 使用python jieba库进行中文分词
- 使用Python,字标注及最大熵法进行中文分词