中文词性标注规范
2018-01-29 17:25
375 查看
词性标注
词性标注(Part-of-speech Tagging, POS)是给句子中每个词一个词性类别的任务。 这里的词性类别可能是名词、动词、形容词或其他。 下面的句子是一个词性标注的例子。 其中,v代表动词、n代表名词、c代表连词、d代表副词、wp代表标点符号。国务院/ni 总理/n 李克强/nh 调研/v 上海/ns 外高桥/ns 时/n 提出/v ,/wp 支持/v 上海/ns 积极/a 探索/v 新/a 机制/n 。/wp
词性作为对词的一种泛化,在语言识别、句法分析、信息抽取等任务中有重要作用。 比方说,在抽取“歌曲”的相关属性时,我们有一系列短语:
儿童歌曲 欢快歌曲 各种歌曲 悲伤歌曲 ...
如果进行了词性标注,我们可以发现一些能够描述歌曲属性的模板,比如
[形容词]歌曲 [名词]歌曲
而
[代词]歌曲往往不是描述歌曲属性的模板。
词性标记集:LTP中采用863词性标注集,其各个词性含义如下表:
Tag | Description | Example | Tag | Description | Example |
---|---|---|---|---|---|
a | adjective(形容词) | 美丽 | ni | organization name | 保险公司 |
b | other noun-modifier | 大型, 西式 | nl | location noun | 城郊 |
c | conjunction | 和, 虽然 | ns | geographical name | 北京 |
d | adverb | 很 | nt | temporal noun(现世名词) | 近日, 明代 |
e | exclamation | 哎 | nz | other proper noun | 诺贝尔奖 |
g | morpheme | 茨, 甥 | o | onomatopoeia(拟声词) | 哗啦 |
h | prefix | 阿, 伪 | p | preposition(介词) | 在, 把 |
i | idiom(成语;惯用语) | 百花齐放 | q | quantity(量词) | 个 |
j | abbreviation | 公检法 | r | pronoun(代词) | 我们 |
k | suffix | 界, 率 | u | auxiliary(辅助词) | 的, 地 |
m | number | 一, 第一 | v | verb | 跑, 学习 |
n | general noun | 苹果 | wp | punctuation | ,。! |
nd | direction noun | 右侧 | ws | foreign words | CPU |
nh | person name | 杜甫, 汤姆 | x | non-lexeme(非词位) | 萄, 翱 |
https://www.ltp-cloud.com/intro/#pos_how
相关文章推荐
- 使用Stanford CoreNLP的Python封装包处理中文(分词、词性标注、命名实体识别、句法树、依存句法分析)
- Python 文本挖掘:jieba中文分词和词性标注
- 中文分词与词性标注
- 中文词性标注与viterbi算法
- 中文词性标注
- 学习笔记CB002:词干提取、词性标注、中文切词、文档分类
- Python 文本挖掘:jieba中文分词和词性标注
- 中文词性标注解释一览表
- python进行中文分词、词性标注、词频统计
- ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注
- 基于MaxEnt的中文词性标注模型实现
- NLP自然语言处理 jieba中文分词,关键词提取,词性标注,并行分词,起止位置,文本挖掘,NLP WordEmbedding的概念和实现
- 中文词性标注
- viterbi用于中文词性标注
- viterbi用于中文词性标注
- SCWS中文分词,词典词性标注详解
- 中文词性标注 符号表示
- ictclas,ansj,结巴分词,StanfordNLP中文分词以及所用词性标注集
- 学习笔记CB002:词干提取、词性标注、中文切词、文档分类
- NLTK中文词性自动标注