您的位置:首页 > 其它

词汇化剖析与概率剖析(1)

2016-12-22 00:55 120 查看
概率剖析器的一个重要作用是他能够进行歧义消解,我们知道句子是有很多歧义的。那么怎么消歧,概率语法可以给我们提供对这个问题的解决办法:从歧义中选择最大概率的解释。由于歧义非常普遍,因此概率剖析器在大多数剖析或自然语言理解的工作中起着非常重要的作用。概率语法很重要的应用就是语音识别,他对预测将要来临的单词有很大作用,同时这也是符合心里学的。

把句法的复杂结构模型和概率模型结合起来,是概率剖析领域的一个前沿问题。这个问题很新,但上下文无关语法已经成为非概率句法的一个标准。概率上下文无关语法pcfg,这种语法是上下文无关语法在概率方面的提升,CYK算法是用于PCFG剖析的一种标准的动态规划算法。

对于上下文无关语法的最简单的提升就是概率上下文无关语法pcfg,这种语法又称随机上下文无关语法scfg,这种语法最早是由booth提出来的。

怎么样使用这些概率呢?PCFG可以用来估算关于一个句子及其剖析树的有用概率的数量。例如,一个PCFG可以对于一个句子S的每个剖析数T(也就是每个推导结果)都指派一个概率。PCGF的这个性质在歧义消解中非常有用。例如我们来研究歧义句子Can you book twa flights的两个剖析结果,一个意思是can you book fights on behalf of TWA(你能以TWA公司的名义预订飞机票吗?)另一个意思是can you book
flights run by TWA(你预订TWA公司经营的飞机票吗?)这两个剖析树:

歧义句子的两个剖析树。剖析树a对应的意思是can you book flights on behalf of TWA, 剖析树b对应的意思是 can you book flights which are run by TWA

一个特定的剖析T的概率定义为在该剖析树种用来展开每个结点n的所有规则r的概率的乘积:

作为结果的概率P(T,S)既是剖析和句子的联合概率,又是P(T)的概率。

选择具有最大概率的剖析是进行歧义消解的正确方法。

PCFG的另一个特性是它可以给构成句子的单词符号串指派一个概率。在语音识别,拼写检查和增强通信中,这个特性对于语言建模有重要意义。非歧义句子的概率等于P(T,S)=P(T),或者说这个概率恰好是该句子的单个剖析树的概率。歧义句子的概率等于该句子所有剖析树的概率之和:

PCGF对语言建模的另一个有用特征是它可以给句子中的子符号串指派一个概率。这个概率也就是语法生成句子的初始子符号串味w1w2w3...wi的概率。

  在一个PCFG中,如果一种语言的所有句子的概率之和为1,就可以说这个PCGF是坚固的(consistent),有些递归规则会引起语法变得不坚固,因为这时它对某些句子要进行无线循环推导。

PCFG的概率CYK剖析

pcfg的剖析问题是对于一个给定的句子产生最佳剖析树的问题,计算最佳剖析的算法只是标准剖析算法的简单扩充。我们知道earley算法可以对于给定输入句子和给定上下文无关语法找出所有剖析。我们完全可能提升earley算法,使它能够计算每个剖析的概率,从而找出最佳剖析。但是,这里我们研究CYK算法。之所以这样做,是因为cyk算法很值得学习。earley算法主要是一种自顶向下的剖析算法,使用动态规划表来有效地存储中间结果,cyk算法主要是一种自底向上的剖析算法,也是用同样的动态规划表,cyk算法的这种自低向上的性质,使得它在处理词汇化的语法时非常有效。

正如其他动态规划算法那样(最小编辑距离算法,向前算法,Viterbi算法和Earley算法),CYK算法采用归纳法来填充概率数组。为了便于描写,我们用Wij来表示从单词I到单词j的单词符号串。

概率CYK算法,对于给定的具有CHomsky范式规则num_rule的PCGF语法,该算法用于找出由单词NUM_WORKS组成的最大概率剖析,B是反向指针的数组,用于恢复最佳的剖析。

PCFG概率的学习

PCFG的概率从哪里来的?给语法指派概率有两种途径。最简单的途径是使用句子已经得到剖析的语料库。这样的语料库成为树库。例如语言数据联盟发布的Penn树库包括Brown语料库的剖析树,规模有1百万单词,语料来自《华尔街日报》。

PCGF更重要的问题是这种语法缺乏对单词的敏感性。PCFG中的词汇信息只能通过前终极结点展开为单词的概率来表示。但是,还有一些其他词汇依存关系对于句法概率的模拟也很重要,例如,一些研究者指出,在选择有歧义的介词短语附着的正确剖析时,词汇信息就起着重要作用,比如对于moscow sent more than 100000 soldiers into afghanistan...

在这个句子中,介词短语into afghanistan或者more than 100000 soldiers 这个NP,或者附着于以sent为中心的动词短语。在PCFG中,附着关系的选择归结为下面两个规则之间的选择。一个规则是NP -> NP PP(NP附着),一个规则是VP -> VP PP(vp附着)。这两个规则的概率依赖于训练语料库;

概率词汇化的CFG

每个句法成分可以与一个词汇中心语联系起来。每个成分都有一个中心的这种思想可以追溯到Bloomfield,但首先使用这种思想来扩充PCFG模型的是Black,在简单的在剖析器中使用词汇中心语的概率表示中,剖析树种的每个非终止极符号都要标上一个单词作为它的词汇中心语。workers dumped sacks into a bin这个句子是wsj语料库中的句子经过简化得到的。

为了生成这样的树,每个PCFG的规则必须增强,使它能够鉴别一个右手边的成分是中心语女儿节点。然后,一个节点上的的中心词被置为这个中心语女儿节点的中心词。从以前的经验可知,找出这些中心语女儿节点是很简单的(NN是NP的中心语),但是对于大多数短语来说,这却是很复杂的,当然也是容易引起争议的。在一个不定动词短语中,他的中心词是标补语to,还是动词呢?现代语言学的句法理论一般都包括确定中心词这样的内容。在查找np的中心词规则中,如果已经标注为pos(主有代词),就返回NP中最后的单词,否则就是np中从右到左搜索第一个儿子节点,这些·节点的标记是NN,NNP,NNPS,NNS,NX,POS,JJR,如果从右到左搜索不成功,就从左到右搜索标记为NP的第一个儿子节点。

一个办法是把这些中心语特征看成合一语法中简化的中心语特征。这种简化的中心语特征不使用非常复杂的重入特征值,只允许一个属性有一个单独的值,而这个单独的值来自一个有限的集合(事实上就是词汇中单词的集合)。从技术上讲,每个结点用一个非递归的特征来标记的语法属性成为属性语法。

另一个办法是把词汇化的语法看成是带有很多规则的简单上下文无关语法;就像我们对每个规则都做很多副本,一个副本表示一个成分中的一个中心词,一般来说,把这样的规则·集中起来,他们的数量将会很多,用这种办法建立的词汇语法使得我们可以使用标准的CFG剖析算法来剖析他们。

现在来研究怎么样使用概率来增强这些词汇化的语法,怎么做才能表示词汇依存关系,
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: