中文分词的一点研究
2016-09-04 17:56
375 查看
在中文分词中,歧义性分词是一个难点,其中如下一类分词,比较具有代表性,如果能把这类句子能够正确切分,相信能很好地提高分词效果。
原句:沿海南方向逃跑
分词a:沿海x 南方x 向x 逃跑x
分词b:沿x 海南x 方向x 逃跑x
分词c:沿海x 南x 方向x 逃跑x
原句:购买网球鞋
分词a:购买x 网球x 鞋x
分词b:购买x 网x 球鞋x
原句:中国有石油
分词a:中国x 有x 石油x
分词b:中x 国有x 石油x
原句:经常开会议
分词a:经常x 开x 会议x
分词b:经常x 开会x 议x
分词c: 经x 常开x 会议x
这类句子有个特点,整个词长为5,都被切分成3个词,每个句子都含有1~2个歧义词,他们的有效文本长度相等,词元个数相同,词元平均长度也相同,到底该如何切分呢?是切分成212型,221型还是122型呢?
通过学习MMSeg和IK Analyzer 两种分词软件,发现两个软件都有可能误判,但处理规则不同。
IK Analyzer的规则是提前确定好的,如果是在212和221中选择,IK会选择212(因为词文本跨度比较大),如果是在212和122中选择,Ik会选择212(因为词文本跨度大),如果是在221和122中选择,IK会选择122。
MMSeg的规则也是提前确定好的,但还留有一定的灵活性,在这种情况下,它会比较剩余的单字的自由度(即字的词频)。由于词典是开放的,我们可以通过微调字的频率。来修正切词结果。
从这一点上看,感觉MMSeg要比IK Analyzer好一些。
原句:沿海南方向逃跑
分词a:沿海x 南方x 向x 逃跑x
分词b:沿x 海南x 方向x 逃跑x
分词c:沿海x 南x 方向x 逃跑x
原句:购买网球鞋
分词a:购买x 网球x 鞋x
分词b:购买x 网x 球鞋x
原句:中国有石油
分词a:中国x 有x 石油x
分词b:中x 国有x 石油x
原句:经常开会议
分词a:经常x 开x 会议x
分词b:经常x 开会x 议x
分词c: 经x 常开x 会议x
这类句子有个特点,整个词长为5,都被切分成3个词,每个句子都含有1~2个歧义词,他们的有效文本长度相等,词元个数相同,词元平均长度也相同,到底该如何切分呢?是切分成212型,221型还是122型呢?
通过学习MMSeg和IK Analyzer 两种分词软件,发现两个软件都有可能误判,但处理规则不同。
IK Analyzer的规则是提前确定好的,如果是在212和221中选择,IK会选择212(因为词文本跨度比较大),如果是在212和122中选择,Ik会选择212(因为词文本跨度大),如果是在221和122中选择,IK会选择122。
MMSeg的规则也是提前确定好的,但还留有一定的灵活性,在这种情况下,它会比较剩余的单字的自由度(即字的词频)。由于词典是开放的,我们可以通过微调字的频率。来修正切词结果。
从这一点上看,感觉MMSeg要比IK Analyzer好一些。
相关文章推荐
- 中文分词研究入门
- 中文分词算法研究
- 中文搜索引擎技术研究:中文分词
- 中文分词研究入门
- 中文分词的一些研究记录
- 转 中文分词 一小部分,明天继续研究
- JSP中文乱码的一点研究
- 中文分词的一些研究记录[转]
- 中文分词算法的初步研究
- [更新中]Lucene.net,中文分词技术 ICTCLAS研究
- 中文分词研究入门
- 基于隐马尔科夫模型的中文分词研究
- 中文分词的一些研究记录
- 给Lucene加入性能更好的中文分词1 的一点改动
- 中文分词基础中trie树的实现方式研究
- 中文分词的一些最新研究进展
- 全文检索引擎Solr系列——整合中文分词组件mmseg4j
- 中文分词词性对照表
- Solr6.0.0以上分词器配置[中文]
- [转]用PHP简易实现中文分词