您的位置:首页 > 编程语言 > Python开发

python中文分词库结巴使用示例

2017-01-17 21:09 447 查看
结巴是开源库,中文分词,使用简单,可以添加用户字典

https://github.com/fxsjy/jieba

使用示例

from xml.etree import ElementTree
import re
import jieba
import jieba.posseg as pseg

jieba.load_userdict("dict.txt")

#读root
root = ElementTree.parse(r"爬虫.xml")
persons = root.findall("person")

#写root
root = ElementTree.Element("documents")

for person in persons:
name = person.find("name")
dis = person.find("dis")
#s删除作品名
text = re.sub(r'《.*》', '', str(dis.text))
words = pseg.cut(text)
try:
for w in words:
if len(w.word) == 1:
continue
#nr为人名标志
if str(w.flag) == "nr":
print(w.word)
except:
pass
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python 开源