Python中文分词—jieba分词
2016-01-27 00:00
691 查看
结巴分词github项目地址:https://github.com/fxsjy/jieba
1、安装:
全自动安装:
半自动安装:先下载 http://pypi.python.org/pypi/jieba/ ,解压后运行
手动安装:将 jieba 目录放置于当前目录或者 site-packages 目录
2、分词方法jieba.cut:
当cut_all设置为True时,为全模式,会匹配出所有的词语;默认为False,为精准匹配,相当于划分。返回的结果是一个可迭代的generator。如:
使用
可以直接返回列表类型
待更新……
转载请注明来源:http://my.oschina.net/jhao104/blog/610427
1、安装:
全自动安装:
easy_install jieba或者
pip install jieba/
pip3 install jieba
半自动安装:先下载 http://pypi.python.org/pypi/jieba/ ,解压后运行
python setup.py install
手动安装:将 jieba 目录放置于当前目录或者 site-packages 目录
2、分词方法jieba.cut:
import jieba jieba.cut(str,[cut_all=False])
当cut_all设置为True时,为全模式,会匹配出所有的词语;默认为False,为精准匹配,相当于划分。返回的结果是一个可迭代的generator。如:
>>> import jieba >>> str = '互联网金融' >>> result1 = jieba.cut(str, cut_all=True) >>> result2 = jieba.cut(str,cut_all=False) >>> print '/'.join(result1) 互联/互联网/联网/金融 >>> print '/'.join(result2) 互联网/金融 >>> print result1 <generator object cut at 0x0000000003057AF8>
使用
jieba.cut(str,[cut_all=False])
可以直接返回列表类型
待更新……
转载请注明来源:http://my.oschina.net/jhao104/blog/610427
相关文章推荐
- 用python爬大一波美女妹子
- Python中的单例模式实现
- Python 7.1 文件读写
- 转载:python文件打开方式详解——a、a+、r+、w+区别
- python基础day2作业:购物车
- Python学习(一)
- Python学习(一)
- Python CGI初体验
- Python CGI初体验
- Python简单的拼写检查
- Python简单的拼写检查
- python中常见的列表生成式
- Python List Pop
- python实现文本去重且不打乱原本顺序
- python 二进制、十六进制、ascii码互转
- python2.7错误for k,v in dict: ValueError: too many values to unpack
- Python 第七章 IO编程
- Flask 打印动态url内容
- 《笨办法学Python》 第24课手记
- python系列之 - 迭代器、生成器