您的位置：首页 > 其它

笔记-2010-2011 孙薇薇

2013-01-05 13:37 197 查看

语料宾州树库CTB
1:2010
Word Based and Character-Based Word Segmentation Models：
Comparison and Combination
就是简单的说明了一下字、词单位的区别。然后实验对比了一下。
分词方法就是投票，找M个分词结果，多的胜出。投票boosting
最高提高0.4个点

2:2011
A Stacked Sub-Word Model for Joint Chinese Word Segmentation and Part of Speech Tagging.
step1 :基于词、字的分词方法即2010年的方法，先做出一个初分模型。
step2：
subword选取方法：三个方法分出来的结果。只要由一个说这个位置是“词边界”，则切分出来（这样就相对切得比较碎，即子串）。
整理Step2的过程是：
将训练语料分成N等分，用1测试，N-1训练。循环N次，每次得到1/N的subword的分词结果。
这些subword的其实来自于训练语料，即有标准答案，所以可以利用subword再做一次训练。此次训练，训练单位为subword，特征也加入了NN，B—CD这些初分的分词标记；训练方法为M3N和SVM-HMM，最终切分标记用BI。
测试语料来了，先用训练语料做第一次的初分，然后转成subword形式，做第二次的再分。
97.87提高到98.17

3:2011
Enhancing Chinese Word Segmentation Using Unlabeled Date
整体还是基于CRF的方法，但是特征有所不同。
1 基本信息：5字窗口，C，CiCi+1，Ci-1Ci+1 ,但是后两个是判断是否是重叠字
2 补充信息：C向前、向后（最长5个字）是否是训练语料中的词；CC向前向后，是否是训练语料连续出现的两个词
3 Unlabeled信息：LDC一份语料，统计每个字的互信息（MI）、AV信息、与标点符号的邻接信息、篇章信息（即，Abc与Abcd在同一篇章内出现的次数是否相同，同理bcd与Abcd）
这部分信息由于求出来都是一个个数字，对于CRF无法当成特征，所以将此数据离散化，做成区间。
95.46 提高到96.22

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航