您的位置:首页 > 理论基础

《自然语言计算机形式分析的理论与方法》读书笔记(2)

2017-07-03 21:47 267 查看

第二章 语言计算研究的先驱

2.1 马尔科夫链 Markov chain

马尔科夫链:每个语言符号的出现概率不互相独立,每一个随机试验的个别结局依赖于他前面的随机试验的结局。

多元语法:前面多个语言符号对后面一个语言符号出现概率有影响,得到多重马尔科夫链。

2.2 齐普夫定律 Zipf’s law

词频词典,词频降序排列,单词序号r=1,2,...,L ①,对应的词频为fr=n1N,n2N,...,nLN

① pp.048 此处的L原文为2,显然印错了

Estoup和Condon发现,fr=cr−1

Zipf对《尤利西斯》的频率词典进行研究,将频率变为概率pr,得到单参数齐普夫定律:pr=cr−1,c为常数,0

2.3 香农与信息熵

等概率随机试验的熵:H0=log2n

不等概率随机试验的熵:H1=−Σpilog2pi

定义熵的最直观的办法,就是把熵想象成在最优编码中一定的判断或信息编码的位数的下界。

困惑度:2H,直观理解为在随机试验中选择随机变量的加权平均数。

条件熵:H=−ΣP(bi(n−1),j)log2Pbi(n−1)(j)

一重马尔科夫链(二元语法)对应一阶条件熵H2=−Σpijlog2pi(j)

随着马尔科夫链重数增大,条件熵越来越小:H0>=H1>=...>=H∞

2.4 Bar-Hillel的范畴语法

句法类型

任何词可以根据它在句子中的功能归入一定的句法类型,如果用n表示名词的句法类型,用S表示句子,(这两种为原子范畴),则其他的一些句法类型(复合范畴)都可以用n和S以不同的方式结合起来表示。规则:

词C句法类型为γ,若词序列BC功能与β相同,则B的句法类型为β/γ

词A句法类型为α,若词序列AB功能与β相同,则B的句法类型为α\β

词A句法类型为α,词C句法类型为γ,若词序列ABC功能与β相同,则B的句法类型为α\β/γ

例如形容词修饰名词组成的词序列
poor John
,句法功能和名词
John
相同,所以形容词
poor
的句法类型为
n/n
,具体来说就是
poor John的句法功能为n / poor后边的John的句法类型为n


进而可以得出句法类型表

词类句法类型
n.n
a.n/n
vi.n\S
vt.n\S/n
adv.(n\S)\n\S
adv.S\S
adv.n\S/(n\S)
prep.S\S/n
conj.S\S/S
通过4条演算规则,可以将词序列转化为S:

(α)(α\β) → β;

(β/γ)(γ) → β;

(α\β)(β\γ) → α\γ;

(α/β)(β/γ) → α/γ;

不能使用这四条规则通过有限次步骤转化为S的句子,则词序列不是该语言中合格的句子。

短语结构语法力图对句子进行切分,采用的是一种解析模式

范畴语法则力图反映句法类型的语义连锁,采用的是一种构造模式,将语义直接表示在句法中,与前者截然不同。

为了消除歧义、增强适应性等,需要引入更加复杂的句法类型和更多类型的演算规则。为此还制定了动词短语的句法类型表和运算表,(变得更加庞杂),不再赘述。

2.5 Harris的语言串分析法

Harris是美国结构主义语言学代表人物,也是乔姆斯基的老师

词串:词,或词按照线性排列形成的符号串,如
客厅 里 坐 着 两 位 客人


串式:使用词类替换词或词串中的词形成的符号串,如
<N><FN><V><PART><NUM><MEA><N>


基本串:中心串、连接串、替换串。

制定规则(麻烦),对中心串进行扩充,得到各种复杂的句子。

一个串式具有抽象性和概括性,能够对应很多相同结构但对象和意思完全不同的句子。

套路正是如此:

提取抽象范式 → 用于匹配检索同类 → 制定适应方法,将范式套到其他对象上,实现转移重用 → 制定变化方法,实现对象变型;制定融合方法,实现合成

2.6 O.C.库拉金娜的语言集合论模型

使用集合论方法建立自然语言的数学模型,从词规约为词组,从词组规约为句子的层次分析过程。

这部分俄语太多看不懂,看起来太费劲,而且我觉得细看也没啥意义,故跳过。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
相关文章推荐