词性标注
2015-01-14 17:48
309 查看
http://www.hankcs.com/nlp/part-of-speech-tagging.html
词性标注(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。在汉语中,词性标注比较简单,因为汉语词汇词性多变的情况比较少见,大多词语只有一个词性,或者出现频次最高的词性远远高于第二位的词性。据说,只需选取最高频词性,即可实现80%准确率的中文词性标注程序。
利用HMM即可实现更高准确率的词性标注,本文旨在介绍HanLP中的词性标注模块。
从词典可以看出,汉语词汇的确词性单一,且存在歧义的词性多集中在“动词v”和“名动词vn”上。另外,我拿到的2014人民日报切分语料感觉没有经过严格的人工校对,许多单词词性单一,且存在不少错误。也许等我有机会(经济实力或学术背景),可以拿更高质量的语料来训练。所幸HanLP同时维护了一个通用的语料处理包,暂且埋下伏笔吧。
事实上,完整的转移矩阵非常大,请下载观看:
词性标注 转移矩阵.xls
未标注:[我/rr, 的/ude1, 爱/v, 就是/v, 爱/v, 自然语言/gm, 处理/vn]
标注后:[我/rr, 的/ude1, 爱/vn, 就是/v, 爱/v, 自然语言/gm, 处理/vn]
前后两个“爱”的词性并不相同,前者是名动词,后者是动词。
再比如
未标注:[教授/nnt, 正在/d, 教授/nnt, 自然语言/gm, 处理/vn, 课程/n]
标注后:[教授/nnt, 正在/d, 教授/v, 自然语言/gm, 处理/vn, 课程/n]
HanLP的词性标注初见成效。
目录
训练
语料库
单词词性频次词典
转移矩阵
标注
测试
输出
转载请注明:码农场 » 词性标注
词性标注(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。在汉语中,词性标注比较简单,因为汉语词汇词性多变的情况比较少见,大多词语只有一个词性,或者出现频次最高的词性远远高于第二位的词性。据说,只需选取最高频词性,即可实现80%准确率的中文词性标注程序。
利用HMM即可实现更高准确率的词性标注,本文旨在介绍HanLP中的词性标注模块。
训练
HanLP中使用了一阶隐马模型,在这个隐马尔可夫模型中,隐状态是词性,显状态是单词。语料库
训练语料采用了2014人民日报切分语料:单词词性频次词典
统计所有单词的各个词性的出现频次,得到核心词典:转移矩阵
统计每个标签的转移频次,得到如下转移矩阵:事实上,完整的转移矩阵非常大,请下载观看:
词性标注 转移矩阵.xls
标注
利用上述转移矩阵和核心词典词频可以计算出HMM中的初始概率、转移概率、发射概率,进而完成求解。关于维特比算法和实现请参考《通用维特比算法的Java实现》。测试
以“我的爱就是爱自然语言处理”为例:输出
未标注:[我/rr, 的/ude1, 爱/v, 就是/v, 爱/v, 自然语言/gm, 处理/vn]
标注后:[我/rr, 的/ude1, 爱/vn, 就是/v, 爱/v, 自然语言/gm, 处理/vn]
前后两个“爱”的词性并不相同,前者是名动词,后者是动词。
再比如
未标注:[教授/nnt, 正在/d, 教授/nnt, 自然语言/gm, 处理/vn, 课程/n]
标注后:[教授/nnt, 正在/d, 教授/v, 自然语言/gm, 处理/vn, 课程/n]
HanLP的词性标注初见成效。
目录
训练
语料库
单词词性频次词典
转移矩阵
标注
测试
输出
转载请注明:码农场 » 词性标注
相关文章推荐
- 使用hmm建模实现词性标注实例
- 通过stanford-postagger对英文单词进行词性标注
- 基于隐马尔可夫模型的有监督词性标注
- 中科院词性标注标记集
- 词性标注
- ICTCLAS 汉语词性标注集
- 计算所词性标注集
- jieba分词、自定义词典提取高频词、词性标注及获取词的位置
- 十七、让机器做词性自动标注的具体方法
- 词性标注
- 转:CRF++词性标注
- 中文词性标注
- stanford 词性标注中词性的解释
- nltk英文词性标注
- 学习笔记CB007:分词、命名实体识别、词性标注、句法分析树
- 使用隐马尔科夫模型Viterbi算法解决词性标注问题
- ICTCLAS 汉语词性标注集
- 词性标注类函数
- 词性标注对照表
- ictclas,ansj,结巴分词,StanfordNLP中文分词以及所用词性标注集