您的位置:首页 > 其它

细粒度命名实体识别

2016-07-07 18:58 197 查看

简介

对于一个已识别出的命名实体,可能属于多个不同粒度的类别,比如“高加索牧羊犬”可能属于的类别包括“狗”、“犬科动物”、“动物”等。命名实体的上位词(Hypernym)指示了其类别,上述的“狗”、“犬科动物”、“动物”都是“高加索牧羊犬”的上位词。目前被广泛使用人工构建的语义词典中就有这样的上下位关系,比如英文的WordNet、汉语的知网、同义词词林(扩展版)。

但是这些词典资源有限,很多研究者尝试才用自动的方法抽取上位词,以往的上位词抽取研究中,常用的方法主要包括:基于模式匹配的方法、基于统计分布相似度的方法、基于在线百科的方法。

其中,基于模式匹配的方法效果不好,主要源于匹配模式有限或有交叉。基于统计分布相似度的方法都基于一个假设:下位词的上下文词汇是其上位词上下文词汇的一个真子集。例:“熊猫”的上下文一定也是“动物”的上下文,但反过来,“动物”的上下文不一定是“熊猫”的上下文,也包括了其他种类动物的上下文。但这样的假设太强,并不能总成立。基于在线百科的方法是用百科页面中的类别标签和信息框等结构化信息来获取一个词的各种语义关系(包括上位词),因此准确率较高。

基于多信息源的开放域命名实体类别候选抽取

1、将命名实体作为查询,输入到搜索引擎中检索相关网页,从搜索结果的标题和摘要中抽取类别候选。选top 10,(正确率86%以上)

2、如果该命名实体在百度百科和互动百科搜索页面中存在,则抓取其页面,抽取页面的类别标签,加入候选集中。

3、对于本身含有核心词的命名实体,如“极乐鸟”的核心词是“鸟”、“微软公司”的核心词是“公司”都能指示实体的类型。因此对实体进行分词后,选取末尾的词为核心词。(正确率41%以上)

将以上三种合并在一起,最终的覆盖率达93.24%以上

候选实体类别排序

主要的排序模型算法有三种模型:基于线性函数的支持向量机(SVM)、基于径向基函数核的SVM,以及罗辑回归

1、排序特征



Prior:直观上来看,有的词可以作为实体的类别,如“植物”、“药品”、“电影”等;另外一些词通常不作为类别,如“太阳”、“自然”等。因此,使用百科类标签作为先验概率,假设一个名词出现在百科的类别标签中的次数越多,则说明它越有可能作为命名实体的类别,

作者随机抓取了240万网页的类别标签,计算每个词作为命名实体类别的先验概率,其中countCT(w)表示一个词在百度百科类别标签中出现的次数

In_Titles(在搜索结果标题中出现的情况):作者实验在搜索引擎中搜索一个实体时,会返回一个搜索结果列表,包括相关网页的标题和摘要。经验发现,在获得的命名实体候选列表中,真正的类别在标题中出现的平均频率是15.6,非类别出现的频率是5.18,而在摘要中这个差距很小,因此设置如下特征:



Synonms(同义词):若两个词为同义词,那么他们成为真正类别的可能行越大。如“药品”和“药物”,因此,可以利用同义词词林作为判断资源



给定一个命名实体e及其类别候选集合He,计算某个候选h的同义词集合在整个候选集中所占比例,并一次作为特征。

Radicals(偏旁部首):对于“蜻蜓”的“虫”字旁,暗示这是一种昆虫,因此可以根据计算偏旁部首的特征值:

,表示候选词h中的字和命名实体e的尾字偏旁匹配度,countRM(e,h)表示h中和e的尾字匹配的字的个数。len(h)是h的总字数。


内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: