您的位置:首页 > 其它

笔记-2010-2011 孙薇薇

2013-01-05 13:37 197 查看
语料宾州树库CTB
1:2010
Word Based and Character-Based Word Segmentation Models:
Comparison and Combination
就是简单的说明了一下字、词单位的区别。然后实验对比了一下。
分词方法就是投票,找M个分词结果,多的胜出。投票boosting
最高提高0.4个点

2:2011
A Stacked Sub-Word Model for Joint Chinese Word Segmentation and Part of Speech Tagging.
step1 :基于词、字的分词方法即2010年的方法,先做出一个初分模型。
step2:
subword选取方法:三个方法分出来的结果。只要由一个说这个位置是“词边界”,则切分出来(这样就相对切得比较碎,即子串)。
整理Step2的过程是:
将训练语料分成N等分,用1测试,N-1训练。循环N次,每次得到1/N的subword的分词结果。
这些subword的其实来自于训练语料,即有标准答案,所以可以利用subword再做一次训练。此次训练,训练单位为subword,特征也加入了NN,B—CD这些初分的分词标记;训练方法为M3N和SVM-HMM,最终切分标记用BI。
测试语料来了,先用训练语料做第一次的初分,然后转成subword形式,做第二次的再分。
97.87提高到98.17

3:2011
Enhancing Chinese Word Segmentation Using Unlabeled Date
整体还是基于CRF的方法,但是特征有所不同。
1 基本信息:5字窗口,C,CiCi+1,Ci-1Ci+1 ,但是后两个是判断是否是重叠字
2 补充信息:C向前、向后(最长5个字)是否是训练语料中的词;CC向前向后,是否是训练语料连续出现的两个词
3 Unlabeled信息:LDC一份语料,统计每个字的互信息(MI)、AV信息、与标点符号的邻接信息、篇章信息(即,Abc与Abcd在同一篇章内出现的次数是否相同,同理bcd与Abcd)
这部分信息由于求出来都是一个个数字,对于CRF无法当成特征,所以将此数据离散化,做成区间。
95.46 提高到96.22
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: