您的位置:首页 > 其它

中文分词的一点研究

2016-09-04 17:56 375 查看
在中文分词中,歧义性分词是一个难点,其中如下一类分词,比较具有代表性,如果能把这类句子能够正确切分,相信能很好地提高分词效果。

原句:沿海南方向逃跑
分词a:沿海x 南方x 向x 逃跑x

分词b:沿x 海南x 方向x 逃跑x

分词c:沿海x 南x 方向x 逃跑x


原句:购买网球鞋
分词a:购买x 网球x 鞋x

分词b:购买x 网x 球鞋x


原句:中国有石油
分词a:中国x 有x 石油x

分词b:中x 国有x 石油x


原句:经常开会议
分词a:经常x 开x 会议x 

分词b:经常x 开会x 议x

分词c: 经x 常开x 会议x


这类句子有个特点,整个词长为5,都被切分成3个词,每个句子都含有1~2个歧义词,他们的有效文本长度相等,词元个数相同,词元平均长度也相同,到底该如何切分呢?是切分成212型,221型还是122型呢?

通过学习MMSeg和IK Analyzer 两种分词软件,发现两个软件都有可能误判,但处理规则不同。

IK Analyzer的规则是提前确定好的,如果是在212和221中选择,IK会选择212(因为词文本跨度比较大),如果是在212和122中选择,Ik会选择212(因为词文本跨度大),如果是在221和122中选择,IK会选择122。

MMSeg的规则也是提前确定好的,但还留有一定的灵活性,在这种情况下,它会比较剩余的单字的自由度(即字的词频)。由于词典是开放的,我们可以通过微调字的频率。来修正切词结果。

从这一点上看,感觉MMSeg要比IK Analyzer好一些。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息