您的位置：首页 > 编程语言 > Python开发

Python中文分词—jieba分词

2016-01-27 00:00 691 查看

结巴分词github项目地址：https://github.com/fxsjy/jieba

1、安装：

全自动安装：

easy_install jieba

或者

pip install jieba

pip3 install jieba

半自动安装：先下载 http://pypi.python.org/pypi/jieba/ ，解压后运行

python setup.py install

手动安装：将 jieba 目录放置于当前目录或者 site-packages 目录

2、分词方法jieba.cut：

import jieba
jieba.cut(str,[cut_all=False])

当cut_all设置为True时，为全模式，会匹配出所有的词语；默认为False，为精准匹配，相当于划分。返回的结果是一个可迭代的generator。如：

>>> import jieba
>>> str = '互联网金融'
>>> result1 = jieba.cut(str, cut_all=True)
>>> result2 = jieba.cut(str,cut_all=False)
>>> print '/'.join(result1)
互联/互联网/联网/金融
>>> print '/'.join(result2)
互联网/金融
>>> print result1
<generator object cut at 0x0000000003057AF8>

使用

jieba.cut(str,[cut_all=False])

可以直接返回列表类型

待更新……

转载请注明来源：http://my.oschina.net/jhao104/blog/610427

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航