您的位置：首页 > 编程语言 > Python开发

python中文分词库结巴使用示例

2017-01-17 21:09 447 查看

结巴是开源库，中文分词，使用简单，可以添加用户字典

https://github.com/fxsjy/jieba

使用示例

from xml.etree import ElementTree
import re
import jieba
import jieba.posseg as pseg

jieba.load_userdict("dict.txt")

#读root
root = ElementTree.parse(r"爬虫.xml")
persons = root.findall("person")

#写root
root = ElementTree.Element("documents")

for person in persons:
name = person.find("name")
dis = person.find("dis")
#s删除作品名
text = re.sub(r'《.*》', '', str(dis.text))
words = pseg.cut(text)
try:
for w in words:
if len(w.word) == 1:
continue
#nr为人名标志
if str(w.flag) == "nr":
print(w.word)
except:
pass

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： python 开源库

相关文章推荐

Python结巴中文分词工具使用过程中遇到的问题及解决方法
Python使用中文正则表达式匹配指定中文字符串的方法示例
结巴中文分词使用学习（python）
使用python 的结巴(jieba)库进行中文分词
python中文分词，使用结巴分词对python进行分词
Python 中文分词工具 ——结巴分词的使用方法总结
PYTHON 结巴中文分词工具的基础使用
python使用jieba实现中文分词去停用词方法示例
python使用reportlab画图示例（含中文汉字）
python中文分词,使用结巴分词对python进行分词(实例讲解)
python中文分词，使用结巴分词对python进行分词
python使用reportlab画图示例（含中文汉字）
Python 中文分词工具 ——结巴分词的使用方法总结
结巴分词 0.14 版发布，Python 中文分词库
python中使用中文问题
使用minidom来处理XML的示例(Python 学习)(转载)
zz使用 Python 分离中文与英文的混合字串
Python中使用中文的方法
Python中使用中文的方法
使用python查询中文汉字的Unicode

新的分享

#新闻拍一拍# 微软推出 Pylance，改善 VS Code 中的 Python 体验
跟我学Python图像处理丨5种图像阈值化处理及算法对比
基于Python设计一个具有基本功能的通讯录
liunx上升级python2至python3
es的查询、排序查询、分页查询、布尔查询、查询结果过滤、高亮查询、聚合函数、python操作es
python常用标准库（时间模块time和datetime）
python之logging日志
python之configparser类的使用
Python常用标准库（pickle序列化和JSON序列化）
MySQL（12） - Python+MySQL读取写入图片
MySQL（11） - Python+MySQL开发新闻管理系统
Python 什么是flask框架？快速入门(flask安装，登录，新手三件套，登录认证装饰器，配置文件，路由系统，CBV)

章节导航