中文命名实体识别之学习笔记一(词性标注)
2010-12-20 15:16
721 查看
接触命名实体识别这个领域有不少时间了,中文命名实体识别的主要任务是识别出文本中的人名,地名,组织机构名等专有名称和有意义的时间,日期等数量短语并加以归类。命名实体识别技术是信息抽取,信息检索,机器翻译,问答系统等多种自然语言处理技术必不可少的组成部分。对于这个技术,自己也看了不少相关的论文,但是,具体的细节总是不能甚为的深入,今天决定,从最基础的开始。因为命名实体识别,一般是在词性标注,即分词之后进行,所以对于深入命名实体识别技术必须先把词性标注搞的很明白。下面介绍一下,词类标记集:
词类标记集
本规范的词类标记集采用《信息处理用现代汉语词类标记规范》的大类,只增加了部分细类。
本规范的词类标记集规定,每个分词单位的标记由英文字母串构成。标记的第一位代码,表示信息处理用现代汉语词类的基本词类,共20类,标记的第二、三位代码,表示信息处理用现代汉语基本词类下的细类。
词类分别为:
(1) 名词n:
普通名词(n)
时间名词(nt)
方位名词(nd)
处所名词(nl)
人名(nh)
汉族或类汉族人名(人名 nhh:姓nhf, 名nhg)
音译名或类音译名(nhy)
日本人名(nhr)
其他(nhw):如绰号,笔名,尊称等 。
地名(ns)
族名(nn)
团体机构名(ni)
其他专有名词(nz)
(2) 动词v:
普通动词(v)
能愿动词(vu)
趋向动词(vd)
系动词(vl)
(3) 形容词:
性质形容词(aq)
状态形容词(as)
(4)区别词f
(5)数词m
(6)量词q
(7)副词d
(8)代词r
(9)介词p
(10)连词c
(11)助词u
(12)叹词e
(13)拟声词o
(14)习用语i
名词性习用语(in)
动词性习用语(iv)
形容词性习用语 (ia)
连词性习用语(ic)
(15)简称和略语j
名词性简称和略语 jn
动词性简称和略语 jv
形容词性简称和略语 ja
(16)前接成分h
(17)后接成分k
(18)语素字g
(19)非语素字x
(20)其它w:
标点符号 (wp)
非汉字字符串(ws)
其他未知的符号(wu)
这些词类集合,我觉得应该时刻记在心里。
参考文献:973当代汉语文本语料库分词、词性标注加工规范。山西大学
词类标记集
本规范的词类标记集采用《信息处理用现代汉语词类标记规范》的大类,只增加了部分细类。
本规范的词类标记集规定,每个分词单位的标记由英文字母串构成。标记的第一位代码,表示信息处理用现代汉语词类的基本词类,共20类,标记的第二、三位代码,表示信息处理用现代汉语基本词类下的细类。
词类分别为:
(1) 名词n:
普通名词(n)
时间名词(nt)
方位名词(nd)
处所名词(nl)
人名(nh)
汉族或类汉族人名(人名 nhh:姓nhf, 名nhg)
音译名或类音译名(nhy)
日本人名(nhr)
其他(nhw):如绰号,笔名,尊称等 。
地名(ns)
族名(nn)
团体机构名(ni)
其他专有名词(nz)
(2) 动词v:
普通动词(v)
能愿动词(vu)
趋向动词(vd)
系动词(vl)
(3) 形容词:
性质形容词(aq)
状态形容词(as)
(4)区别词f
(5)数词m
(6)量词q
(7)副词d
(8)代词r
(9)介词p
(10)连词c
(11)助词u
(12)叹词e
(13)拟声词o
(14)习用语i
名词性习用语(in)
动词性习用语(iv)
形容词性习用语 (ia)
连词性习用语(ic)
(15)简称和略语j
名词性简称和略语 jn
动词性简称和略语 jv
形容词性简称和略语 ja
(16)前接成分h
(17)后接成分k
(18)语素字g
(19)非语素字x
(20)其它w:
标点符号 (wp)
非汉字字符串(ws)
其他未知的符号(wu)
这些词类集合,我觉得应该时刻记在心里。
参考文献:973当代汉语文本语料库分词、词性标注加工规范。山西大学
相关文章推荐
- 使用Stanford CoreNLP的Python封装包处理中文(分词、词性标注、命名实体识别、句法树、依存句法分析)
- 中文词性标注以及命名实体识别
- 聊天机器人 ,中文翻译,繁简 ,关键词提取,主题提取,摘要提取 ,命名体识别,分词 ,情感分析,正负类分析 ,近义词,同义词,句子相似性,聚类,监督,无监督,词性标注,词向量句子向量
- nlp-形式语言与自动机-ch07-自动分词、命名实体识别与词性标注
- 统计自然语言处理梳理一:分词、命名实体识别、词性标注
- 学习笔记CB007:分词、命名实体识别、词性标注、句法分析树
- HMM算法-viterbi算法的实现及与分词、词性标注、命名实体识别的引用
- 学习笔记CB007:分词、命名实体识别、词性标注、句法分析树
- 哈工大ltp,分词,词性标注,命名实体识别技术的特征提取
- Tensorflow进行POS词性标注NER实体识别 - 构建LSTM网络进行序列化标注
- JSP学习笔记:通过UUID为解决中文文件上传后的命名问题
- 【命名实体识别】HMM-Viterbi角色标注中国人名识别
- nlp 总结 分词,词义消歧,词性标注,命名体识别,依存句法分析,语义角色标注
- Tensorflow进行POS词性标注NER实体识别 - 构建LSTM网络进行序列化标注
- Stanford Corenlp学习笔记——词性标注
- 人工神经网络学习笔记_英文字母识别
- 场景识别学习笔记日记2016.11.28
- 中文词性标注
- 【linux学习笔记】Sublime Text3支持GB2312和GBK编码以及中文输入法
- 机器学习实战笔记-利用K均值聚类算法对未标注数据分组