您的位置:首页 > 编程语言 > Python开发

Python中文分词—jieba分词

2016-01-27 00:00 691 查看
结巴分词github项目地址:https://github.com/fxsjy/jieba

1、安装:

全自动安装:
easy_install jieba
或者
pip install jieba
/
pip3 install jieba


半自动安装:先下载 http://pypi.python.org/pypi/jieba/ ,解压后运行
python setup.py install


手动安装:将 jieba 目录放置于当前目录或者 site-packages 目录

2、分词方法jieba.cut:

import jieba
jieba.cut(str,[cut_all=False])

当cut_all设置为True时,为全模式,会匹配出所有的词语;默认为False,为精准匹配,相当于划分。返回的结果是一个可迭代的generator。如:

>>> import jieba
>>> str = '互联网金融'
>>> result1 = jieba.cut(str, cut_all=True)
>>> result2 = jieba.cut(str,cut_all=False)
>>> print '/'.join(result1)
互联/互联网/联网/金融
>>> print '/'.join(result2)
互联网/金融
>>> print result1
<generator object cut at 0x0000000003057AF8>

使用

jieba.cut(str,[cut_all=False])

可以直接返回列表类型

待更新……

转载请注明来源:http://my.oschina.net/jhao104/blog/610427
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: