您的位置:首页 > 其它

中文命名实体识别之学习笔记一(词性标注)

2010-12-20 15:16 721 查看
接触命名实体识别这个领域有不少时间了,中文命名实体识别的主要任务是识别出文本中的人名,地名,组织机构名等专有名称和有意义的时间,日期等数量短语并加以归类。命名实体识别技术是信息抽取,信息检索,机器翻译,问答系统等多种自然语言处理技术必不可少的组成部分。对于这个技术,自己也看了不少相关的论文,但是,具体的细节总是不能甚为的深入,今天决定,从最基础的开始。因为命名实体识别,一般是在词性标注,即分词之后进行,所以对于深入命名实体识别技术必须先把词性标注搞的很明白。下面介绍一下,词类标记集:

词类标记集

本规范的词类标记集采用《信息处理用现代汉语词类标记规范》的大类,只增加了部分细类。
本规范的词类标记集规定,每个分词单位的标记由英文字母串构成。标记的第一位代码,表示信息处理用现代汉语词类的基本词类,共20类,标记的第二、三位代码,表示信息处理用现代汉语基本词类下的细类。
词类分别为:
(1) 名词n:
普通名词(n)
时间名词(nt)
方位名词(nd)
处所名词(nl)
人名(nh)
汉族或类汉族人名(人名 nhh:姓nhf, 名nhg)
音译名或类音译名(nhy)
日本人名(nhr)
其他(nhw):如绰号,笔名,尊称等 。
地名(ns)
族名(nn)
团体机构名(ni)
其他专有名词(nz)
(2) 动词v:
普通动词(v)
能愿动词(vu)
趋向动词(vd)
系动词(vl)
(3) 形容词:
性质形容词(aq)
状态形容词(as)
(4)区别词f

(5)数词m

(6)量词q

(7)副词d

(8)代词r
(9)介词p
(10)连词c
(11)助词u
(12)叹词e
(13)拟声词o
(14)习用语i
名词性习用语(in)
动词性习用语(iv)
形容词性习用语 (ia)
连词性习用语(ic)
(15)简称和略语j
名词性简称和略语 jn
动词性简称和略语 jv
形容词性简称和略语 ja
(16)前接成分h
(17)后接成分k
(18)语素字g

(19)非语素字x

(20)其它w:
标点符号 (wp)
非汉字字符串(ws)
其他未知的符号(wu)
这些词类集合,我觉得应该时刻记在心里。

参考文献:973当代汉语文本语料库分词、词性标注加工规范。山西大学
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐