您的位置：首页 > 其它

jieba提取关键词时筛选词性时单词性选择的一点注意事项

2017-03-31 17:46 330 查看

最近又在迭代特征工程，发现jieba提取特征词有个需要注意的地方，直接看例子

例子1

>>> import jieba
>>> import jieba.posseg as pseg
>>> s = '我们喜欢支付宝, 苹果'
>>> ws = pseg.cut(s)
>>> for i in ws:
...     print i
...
我们/r
喜欢/v
支付宝/nr
,/x
/x
苹果/n
>>> allow_pos = ('nr',)
>>> tags = jieba.analyse.extract_tags(s, topK=10, withWeight=False, allowPOS=allow_pos)
>>> for t in tags:
...     print t
...
支付宝

>>> allow_pos = ('nr')
>>> tags = jieba.analyse.extract_tags(s, topK=10, withWeight=False, allowPOS=allow_pos)
>>> for t in tags:
...     print t
...
苹果
我们

allow_pos = (‘nr’,) 带逗号，allow_pos是tuple，结果只选取’nr’词性的词

allow_pos = (‘nr’), allow_pos是一个string，结果选取了’n’ 和’r’的词性

这个差别造成了关键词提取方法中词性选取的差异

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： jieba 提取关键词词性筛选

相关文章推荐

新的分享

章节导航