您的位置:首页 > 其它

统计自然语言处理基础学习笔记(4)——语义消除歧义

2012-12-14 19:25 225 查看
我们知道很多词语都有很多意思或语义,而在具体的语境中,词语有某种特定的意思。而独立于上下文来考虑词语意思,语义一般都会出现语义歧义。统计自然语言处理不得不考虑如何消除歧义问题。

消除歧义的任务就是确定一个多义词在一个特定的语境中使用哪一种语义。通过考虑词汇使用的上下文完全可以确定其具体的语义。那么如何确定一个词汇具有的语义,以及从这些语义确定某一种具体的语义呢?

         比较简单的方法是从一部词典中给出某个词汇的定义确定该词汇具有的语义。但对于大部分词汇来说,他们的语义和用法并不是简简单单能够根据词典中的定义来列出,词典中列出的语义之间有一些是可以清晰分辨的内容,但大部分内容都是不确定的,并且是混合在一起的。而更难的一点是,词典中每个词汇只能列出一定数量的语义,而该词汇在实际的语境中定义的语义不一定能够从词典中的语义中找出。而且一个词还具有不同的词性,确定一个词的具体词性属于标注的任务,这里暂不涉及,但我们需要知道同一个词的不同词性的确定能够有效的消除词汇歧义。

        附加提一下,词性标记与语义标记的区别:1、两者的功能不同,词性只是确定词汇的词性,而语义是确定词汇的含义;2、处理方式不同,确定词性大多数是用邻近的结构信息,结构信息一般不会用来确定语义,确定语义一般是用一个相隔很远的实词,但是对于确定词性该方法是无效的;3、词性的标注能够让语义的标注更加准确。总之,大部分的词性标注模型简单地使用当前上下文,而语义消除歧义通常试图使用规模广泛一些地上下文中地实词

       下面我们来介绍从三种消歧方法。

1、有监督消歧——基于标注训练集的消歧。

有监督消歧训练一个已经消歧的语料库。在该样本训练集中,歧义词w每一次出现都被标注上了一个语义标签。在众多的有监督学习算法中,语义消歧算法一般使用的是:贝叶斯分类和信息论。这两种算法证明了完全不同的信息源是可以应用到消歧算法中。其中贝叶斯分类是把上下文看作一个无结构词集,整合了上下文窗口中众多的词汇信息;而信息论仅仅考虑上下文中的一个信息特征,而该特征能够灵敏的反映上下文的结构。正因为该特征需要灵敏的反映上下文特征,因此需要谨慎地从大量潜在信息中选取。

贝叶斯分类器的原理是在一个大的上下文窗口中考虑了歧义词周围的词的信息。每个实词都含有潜在的有用信息,暗示歧义词的哪个语义被使用。该中分类器不是进行特征选择,而是组合了所有特征。

在语义消歧中,单纯的贝叶斯分类器有两个前提条件:1、上下文中的所有结构和词语顺序都可以被忽略;2、可有重复的单词集中出现的词独立于其他词。

基于信息论的方法:由于贝叶斯分类器使用了一个不太真实的独立性假设,而且使用上下文窗口中所有的词的信息来帮助进行消歧。而信息论的方法则是不需要借助于所有的词,只需要借助于单一的上下文特征,可以可靠地指示出歧义词地哪一种语义被使用。

2、基于词典的消歧——建立在词典资源上。

如果一个词没有语义范畴信息,我们可以求助于它的一般语义描述。基于词典的消歧方法一般有两种:

基于语义定义的消歧:认为词典中词条本身的定义就可以作为判断其语义的一个很好的依据条件。

基于类义词典的消歧:上下文词汇的语义范畴大体上确定了这个上下文的语义范畴,并且上下文的语义范畴可以反过来确定词汇的哪一个语义被使用。

在第二语言语料库翻译基础上的消歧:使用双语词典。

3、无监督消歧——未标注文本将应用到训练里。

前面两种方法都需要预先知道的资源,不论是基于词典,需要知道一些基本的词典资源,还是有监督消歧,需要一些训练集,这些方法需要的信息量是否能够满足算法的需求不好确定。无监督消歧不需要这些预先知道的资源,例如语义辨别可以在完全无监督的形式下实现。可以把歧义词的上下文聚类到很多分组中,然后在这些组之间就可以无标记地辨别他们。但对于语义标记使用完全地无监督,消歧比较难实现。因为语义标注需要提供语义地一些特征描述。

无监督消歧地优点是更适合区分有细微区别地语义用法,这些语义地细微差别在词典中不好找到。同时,信息检索也可以应用无监督消歧。缺点是不频繁出现地语义和只有很少搭配的语义很难在无监督消歧中单独列出来。无监督消歧会由于不同的初始化而引起不同的结果。
  
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: