您的位置:首页 > 其它

笔记-1999-消解中文三字长交集型分词歧义的算法

2012-11-06 17:38 274 查看
消解中文三字长交集型分词歧义的算法

出处:清华大学学报(自然科学版)1999年第5期

单位:清华大学

作者:孙茂松
三字,交搭歧义,词性,词概率,组合概率,分类词表概率主要内容:

根据对一个1亿字汉语语料库的观察, 三字长交集型分词歧义就静态个数而言占全部交集型分词歧义的33.29%, 动态覆盖率更占全部交集型分词歧义的49.76%。

1 词概率+ 词性Bigram法,

对S3z=ABC, 其切分取作

AB/ C, 如果f ( AB, C) - f ( A, BC) > t0;

A/ BC, 如果f ( AB, C) - f ( A, BC) < - t0;

未定, 如果ûf ( AB, C) - f ( A, BC) û≤t0.

2设定六个字表

对S3z= ABC, 根据分词语料库对{S03z}的人工切分结果, 可搜集到6个关于首字A、中字B、尾字C的字表:

字表L1 为切分为单字词频率很高的首字A 的集合,

字表L2 为切分为单字词频率很低的首字A 的集合,

字表L3 为与首字A 结合成词频率很高的中字B的集合,

字表L4 为与尾字C结合成词频率很高的中字B的集合,

字表L5 为切分为单字词频率很高的尾字C的集合,

字表L6 为切分为单字词频率很低的尾字C的集合

设L是上述任一汉字表, Z是任意汉字, 令

RL ( Z) = 0,  Z∈/ L;或 1,  Z∈L.

k1 = RL1( A) + RL4( B) + RL6( C) ,

k2 = RL2( A) + RL3( B) + RL5( C) .

则常用字分合法可描述为对S3z= ABC, 其切分取作

A/ BC, 如果k1 > k2;

AB/ C, 如果k1 < k2;

未定, 其它
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: