CRF专业领域实体识别
2016-03-22 18:17
190 查看
命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
实体识别通常包括两部分:(1)实体边界识别;(2) 确定实体类别(人名、地名、机构名或其他)。英语中的命名实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写),所以实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,汉语命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。
近年来,随着对文本病历的研究,需要对医学实体进行识别,实体包括症状,检查,手术,药物等。这里介绍用CRF进行病人自述症状的识别。
下载工具CRF++
1 准备大量病历,抽取病人自述症状部分,经过分词和标注等预处理。
2 因为语料库中医学术语是低频词,识别症状实体需要人工标注词首B ,词中I,词尾E,无关词o
头晕 vi b
, wd o
早上 t o
起来 v o
腰部 n b
僵硬 an e
, wd o
视物 v b
模糊 an e
, wd o
双 m o
小腿 n b
下沉 vi e
3 训练模型 crf_learn template train.data model
4 测试 crf_test -m model test.data>out.txt
父亲 n o
手脚 n b
麻木 an i
, wd o
胸部 n b
发 v i
紧 a i
, wd o
走路 vi o
没劲 a i
, wd o
手脚 n b
麻木 an i
可以找到手脚麻木,胸部发紧,没劲,手脚麻木的症状。有基于单字标注,说基于词的标注,如果因为分词的不准确会导致识别错误。
实体识别通常包括两部分:(1)实体边界识别;(2) 确定实体类别(人名、地名、机构名或其他)。英语中的命名实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写),所以实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,汉语命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。
近年来,随着对文本病历的研究,需要对医学实体进行识别,实体包括症状,检查,手术,药物等。这里介绍用CRF进行病人自述症状的识别。
下载工具CRF++
1 准备大量病历,抽取病人自述症状部分,经过分词和标注等预处理。
2 因为语料库中医学术语是低频词,识别症状实体需要人工标注词首B ,词中I,词尾E,无关词o
头晕 vi b
, wd o
早上 t o
起来 v o
腰部 n b
僵硬 an e
, wd o
视物 v b
模糊 an e
, wd o
双 m o
小腿 n b
下沉 vi e
3 训练模型 crf_learn template train.data model
4 测试 crf_test -m model test.data>out.txt
父亲 n o
手脚 n b
麻木 an i
, wd o
胸部 n b
发 v i
紧 a i
, wd o
走路 vi o
没劲 a i
, wd o
手脚 n b
麻木 an i
可以找到手脚麻木,胸部发紧,没劲,手脚麻木的症状。有基于单字标注,说基于词的标注,如果因为分词的不准确会导致识别错误。
相关文章推荐
- 什么是OCA?
- hadoop单击模式环境搭建
- Head First PMP – 11 – 项目风险管理(Project Risk Management)
- Android Studio的一些基本设置
- Spring源码分析方法
- kernel: httpd[6430]: segfault at* rsp * error 6
- linux 下Openssl的安装配置与使用方法(写的很全面)
- Android RSA 公钥加密、解密
- Android学习心得(17) --- 二进制AndroidManifest解析
- iOS9以后label上的文字frame与之前的frame有出入。
- Android Studio 添加 Volley开源网络框架
- Ubuntu 16.04 LTS 进入功能冻结期,3月24日发布最终测试版
- 登山-C#-为枚举创建新方法
- HDU 5645 DZY Loves Balls
- Spring 注入
- HDU 1241/UVa572 Oil Deposits(DFS&BFS)
- php学习日常3-21 关于表示行与列
- EvenBus3.0中文翻译(四)Sticky Events
- Python 的开始
- linux 输出重定向