您的位置:首页 > 其它

CRF专业领域实体识别

2016-03-22 18:17 190 查看
命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体

实体识别通常包括两部分:(1)实体边界识别;(2) 确定实体类别(人名、地名、机构名或其他)。英语中的命名实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写),所以实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,汉语命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。

近年来,随着对文本病历的研究,需要对医学实体进行识别,实体包括症状,检查,手术,药物等。这里介绍用CRF进行病人自述症状的识别。

下载工具CRF++

1 准备大量病历,抽取病人自述症状部分,经过分词和标注等预处理。

2 因为语料库中医学术语是低频词,识别症状实体需要人工标注词首B ,词中I,词尾E,无关词o

头晕 vi b

, wd o

早上 t o

起来 v o

腰部 n b

僵硬 an e

, wd o

视物 v b

模糊 an e

, wd o

双 m o

小腿 n b

下沉 vi e

3 训练模型 crf_learn template train.data model

4 测试 crf_test -m model test.data>out.txt

父亲 n o

手脚 n b

麻木 an i

, wd o

胸部 n b

发 v i

紧 a i

, wd o

走路 vi o

没劲 a i

, wd o

手脚 n b

麻木 an i

可以找到手脚麻木,胸部发紧,没劲,手脚麻木的症状。有基于单字标注,说基于词的标注,如果因为分词的不准确会导致识别错误。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: