您的位置：首页 > 其它

句法模式识别（二）-正规文法、上下文无关文法

2014-05-17 23:52 260 查看

正规文法的特性

1.所有长度有限的语言都是正规的。

2.用正规文法当然能产生无限长串，其中周期重复部分的长度不大于非终止符的长度。

举个例子

$S\to aA,A \to bS,A \to c$

在此规则之下，能生成句子
$\left\{{a{{\left( {ba} \right)}^n}c|n \ge 0} \right\}$

其中周期重复部分为ab，这个例子的非终止符的元素个数为2，故满足2不大于2.

自嵌入特性

我们把上下文无关文法中的正规文法去掉，剩下的那部分我们叫做真正的上下文无关文法。

自嵌入特性是区分真正的上下文无关文法与正规文法的判定标准。

即一个真正的上下文无关文法一定具有自嵌入特性，正规文法具有非自嵌入特性。亦即非自嵌入的上下文无关文法是正规文法，上下文无关文法就蜕化了。

什么是自嵌入特性？

自嵌入顾名思义，就是能够自己嵌入自己：

$A\mathop \Rightarrow \limits_G^* vAx$

当然必须保证v和x不能是空串。

uvwxy定理

这是一个用以判定上下文无关文法和正规文法的条件。

就是说，当这个文法满足自嵌入条件，表示出来就是

$S\mathop \Rightarrow \limits_G^* uAy,A\mathop \Rightarrow \limits_G^* vAx,A\mathop \Rightarrow \limits_G^* w$

那么，可以得到

$L\left(G \right) = \left\{ {u{v^i}w{x^i}y|i \ge 0} \right\}$

其中当v和x的重复次数相同且为非空串时，则这个文法肯定就是真正的上下文无关文法。因为这种周期形式是正规文法所不具有的。比如这种

$c{a^i}d{b^i}$

就是必须要用真正的上下文无关文法。

下面介绍上下文无关文法的等价文法。

不同的上下文无关文法，它们生成的语言有可能是等价的，这样就涉及到一个最优文法的问题。那么最优是什么？最有就是高效、没有冗余和浪费。

粗略说有2种冗余，而且只有非终止符能够冗余。终止符总是有用的啦。

其一是浪费环节。

浪费环节是说由单个非终止符传递到了单个的非终止符，比如

$A\to B,B \to C$

这种形式意味着B是多此一举的，还不如直接A到C呢。

其二是无用环节。

细分又有2类。通俗说

1.无尾的无用非终止符

所谓无尾，就是咱用了这个终止符，话根本都没法结束。有头无尾。

A根本没法最后变成常量（终止符）。

不存在x使得
$A\mathop \Rightarrow \limits_G^* x$

2.无头的无用非终止符

所谓无头，就是这句话根本就不可能从这个非终止符开始。有尾无头。

从起始符开始根本找不到含有A的句子。

从起始符S开始，不存在
$S\mathop \Rightarrow \limits_G^* \alpha A\beta$

首先介绍如何消去浪费环节。

消去浪费环节包括2个部分。

其一消去。

其二修正。

消去过程

这个过程用递归算法来实现。

就是要求出所有非终止符各自对应能到达的所有非终止符集合。

举个例子就好了

${G_1}= \left( {\left\{ {S,A,B} \right\},\left\{ {a,b} \right\},P,S} \right)$

现在消去浪费环节，先考虑S，

发现S能在一步之内的非终止符只有A

记
${K_1}(S)= \left\{ S \right\} \cup \left\{ A \right\} = \left\{ {S,A} \right\}$

在K1(S)集合中再次出发，在一步之内能走到的新非终止符只有B

记
${K_2}(S)= \left\{ {S,A} \right\} \cup \left\{ B \right\} = \left\{ {S,A,B} \right\}$

再往后没有新的非终止符了。

同理考察A，A在一步之内能到达的非终止符只有B了，记
${K_1}(A) =\left\{ A \right\} \cup \left\{ B \right\} = \left\{ {A,B} \right\}$

再考察B，B根本就没有能在一步之内能到达的新终止符。

于是这对应的3个集合就求完了

$\begin{array}{l}K\left(S \right) = \left\{ {S,A,B} \right\}\\K\left(A \right) = \left\{ {A,B} \right\}\\K\left(B \right) = \left\{ B \right\}\end{array}$

修正过程

修正过程就按照上面的消去过程打补丁就好了，因为要消去一堆连接，旧桥拆了总得重新修吧。还是上面那个例子，先把之前的生成关系画出来，如图1黑线所示。

图1
现在考虑A，根据集合，我们要去掉A到B的连接

那么就得补上S到b、A到b、S到aS、A到aS，黄线代表。

然后再考虑S，要去掉S到A

那么就得补上S到BAb，绿线代表。

注意：现在虽然看起来文法规则比以前更麻烦了，但是，实际生成句子的过程却变得简单了许多，所以简化没简化还是要看疗效。

下面介绍消去无用的终止符

消去无用终止符的思路就是，找出所有有用的非终止符，那么剩下的自然就是没有用的了。

消去无尾非终止符

找出所有的有尾非终止符集合，定义为J(G)

方法是

$\begin{array}{l}{J_0}(G)= \phi \\{J_{i+ 1}}(G) = {J_i}\left( G \right) \cup \left\{ {A|A \in {V_N},A \to \alpha,\alpha \in {{\left( {{V_T} \cup{J_{\rm{i}}}\left( G \right)} \right)}^*}} \right\}\end{array}$

这个表达式很清晰，还是举个例子，反而绕口，但还是举吧

${G_1}= \left( {\left\{ {S,A,B} \right\},\left\{ {a,b} \right\},P,S} \right)$

$\begin{array}{l}P:S\to aBA\\S\to bA\\A\to aA\\A\to b\\B\to aAB\end{array}$

这个表达式其实是一步步找到那些最终的到达终止符的非终止符。

首先J0(G)为空集。则J1(G)为所有能一步走到以终止符为尾的非终止符，即A

继续，J2(G)是J1(G)并上所有能在一步之内到以J1(G)或者其他终止符为尾的非终止符。

好绕口。。。其实就是{S,A}

再往下就找不到了。不过现在忽然发现，B呢？怎么没看到B的影子。

这就说明B就是无尾的无用非终止符。

去掉所有跟B有过关系的生成关系就好，现在是新的生成关系

$\begin{array}{*{20}{l}}{S \to bA}\\{A \to aA}\\{A \to b}\end{array}$

再说说消去无头非终止符

也是只要找出所有有头的非终止符就好，剩下自然就无头了

用表达式表示是这样的

$\begin{array}{l}{R_0}(S)= \left\{ S \right\}\\{R_{i+ 1}}(S) = {R_i}(S) \cup \left\{ {A|B \to \sigma A\gamma ,B \in {R_i}(S)}\right\}\end{array}$

这个表达式的意义其实就是从起始符，回溯一步步展开，希望能找到句子的头部。

还是举个例子

$\begin{array}{l}{G_2}= \left( {\left\{ {S,A,B,C} \right\},\left\{ {a,b} \right\},P,S} \right)\\P:S\to aAA\\A\to aAb\\A\to aCA\\B\to b\\B\to Aa\\C\to b\\A\to b\end{array}$

展开起始符S，发现S能到aAA，因此R1(S)={S,A}

A继续展开，发现A能到aCA，因此R2(S)={S,A,C}

搞定，又发现原来B是无头的非终止符，赶紧删掉与它有关系的所有表达关系就好了，不再赘述。

上下文无关文法的2中标准型

1.C（Chomsky）标准型

$\begin{array}{l}A\to a\\A\to BC\end{array}$

举一个例子立即就知道怎么把随便一个上下文无关文本变成C标准型了：

$\begin{array}{*{20}{l}}{A \to BCd}&*&*\\{ \Rightarrow A \to BCD}&{D \to d}&*\\{ \Rightarrow A \to BE}&{E \to CD}&{D \to d}\end{array}$

2.G（Greibach）标准型

$\begin{array}{l}A\to a\alpha \left( {\alpha \in V_N^*}\right)\\A\to a\end{array}$

这个严格的转化方法有点畸形，就暂时不展开了。简单情况用凑的就好了。

欢迎参与讨论并关注本博客和微博以及知乎个人主页，后续内容继续更新哦~

转载请您尊重作者的劳动，完整保留上述文字以及本文链接，谢谢您的支持！

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 串文法上下文无关文法句法识别模式识别递归算法

相关文章推荐

新的分享

章节导航