词性标注(POS tagging)
2014-03-31 15:48
169 查看
词性标注也叫词类标注,POS tagging是part-of-speech tagging的缩写。
维基百科对POS Tagging的定义:
In corpus linguistics, part-of-speech tagging (POS tagging or POST), also called
grammatical tagging or word-category disambiguation, is the process of marking up the words in a text (corpus) as corresponding to a particular part of speech, based on both its definition, as well as its context —ie. relationship
with adjacent and related words in a phrase, sentence, or paragraph. A simplified form of this is commonly taught to school-age children, in the identification of words as nouns, verbs, adjectives, adverbs, etc.
百度百科的中文分词词条提到了中文分词和词类标注的关系:另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。并给出了几个中文分词软件:
SCWS:Hightman开发的一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。采用的是采集的词频词典,并辅以一定的专有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。45Kb左右的文本切词时间是0.026秒,大概是1.5MB文本/秒,支持PHP4和 PHP 5。
ICTCLAS:这可是最早的中文开源分词和词性标注项目之一,ICTCLAS在国内973专家组组织的评测中活动获得了第一名,在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名。ICTCLAS3.0分词速度单机996KB/s,分词精度 98.45%,API不超过200KB,各种词典数据压缩后不到3M.ICTCLAS全部采用C/C++编写,支持Linux、FreeBSD及
Windows系列操作系统,支持C/C++、C#、Delphi、Java等主流的开发语言。
HTTPCWS:HTTPCWS 是一款基于HTTP协议的开源中文分词系统,目前仅支持Linux系统。HTTPCWS 使用“ICTCLAS 3.0 2009共享版中文分词算法”的API进行分词处理,得出分词结果。HTTPCWS 将取代之前的 PHPCWS 中文分词扩展。
庖丁解牛分词:Java 提供lucence 接口,仅支持Java语言。
CC-CEDICT:一个中文词典开源项目,提供一份以汉语拼音为中文辅助的汉英辞典,截至2009年2月8日,已收录82712个单词。其词典可以用于中文分词使用,而且不存在版权问题。Chrome中文版就是使用的这个词典进行中文分词的。
SVMTool is a simple and effective generator of sequential taggers based on Support Vector Machines.
维基百科对POS Tagging的定义:
In corpus linguistics, part-of-speech tagging (POS tagging or POST), also called
grammatical tagging or word-category disambiguation, is the process of marking up the words in a text (corpus) as corresponding to a particular part of speech, based on both its definition, as well as its context —ie. relationship
with adjacent and related words in a phrase, sentence, or paragraph. A simplified form of this is commonly taught to school-age children, in the identification of words as nouns, verbs, adjectives, adverbs, etc.
百度百科的中文分词词条提到了中文分词和词类标注的关系:另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。并给出了几个中文分词软件:
SCWS:Hightman开发的一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。采用的是采集的词频词典,并辅以一定的专有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。45Kb左右的文本切词时间是0.026秒,大概是1.5MB文本/秒,支持PHP4和 PHP 5。
ICTCLAS:这可是最早的中文开源分词和词性标注项目之一,ICTCLAS在国内973专家组组织的评测中活动获得了第一名,在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名。ICTCLAS3.0分词速度单机996KB/s,分词精度 98.45%,API不超过200KB,各种词典数据压缩后不到3M.ICTCLAS全部采用C/C++编写,支持Linux、FreeBSD及
Windows系列操作系统,支持C/C++、C#、Delphi、Java等主流的开发语言。
HTTPCWS:HTTPCWS 是一款基于HTTP协议的开源中文分词系统,目前仅支持Linux系统。HTTPCWS 使用“ICTCLAS 3.0 2009共享版中文分词算法”的API进行分词处理,得出分词结果。HTTPCWS 将取代之前的 PHPCWS 中文分词扩展。
庖丁解牛分词:Java 提供lucence 接口,仅支持Java语言。
CC-CEDICT:一个中文词典开源项目,提供一份以汉语拼音为中文辅助的汉英辞典,截至2009年2月8日,已收录82712个单词。其词典可以用于中文分词使用,而且不存在版权问题。Chrome中文版就是使用的这个词典进行中文分词的。
其它资源
Statistical natural language processing and corpus-based computational linguistics: An annotated list of resourcesSVMTool is a simple and effective generator of sequential taggers based on Support Vector Machines.
相关文章推荐
- 词性标注POS tagging
- 分词:词性标注北大标准
- viterbi用于中文词性标注
- ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注
- SCWS中文分词,词典词性标注详解
- ICTCLAS 汉语词性标注集 中科院
- HMM与分词、词性标注、命名实体识别
- 词性标注
- 词性标注 词性标识编码表
- 统计自然语言处理梳理一:分词、命名实体识别、词性标注
- 清华大学thulac分词和词性标注代码理解
- 中文词性标注的简单实现
- 简单感知器实现中文词性标注
- nlp 总结 分词,词义消歧,词性标注,命名体识别,依存句法分析,语义角色标注
- NLTK 词频统计(一) 词频统计,绘图,词性标注
- 奋战聊天机器人(三)自动化对语料做词性标注
- NLTK之词性标注
- HMM在自然语言处理中的应用一:词性标注
- 学习笔记CB007:分词、命名实体识别、词性标注、句法分析树
- NLTK词性标注解释