《自然语言计算机形式分析的理论与方法》读书笔记(2)
2017-07-03 21:47
267 查看
第二章 语言计算研究的先驱
2.1 马尔科夫链 Markov chain
马尔科夫链:每个语言符号的出现概率不互相独立,每一个随机试验的个别结局依赖于他前面的随机试验的结局。多元语法:前面多个语言符号对后面一个语言符号出现概率有影响,得到多重马尔科夫链。
2.2 齐普夫定律 Zipf’s law
词频词典,词频降序排列,单词序号r=1,2,...,L ①,对应的词频为fr=n1N,n2N,...,nLN① pp.048 此处的L原文为2,显然印错了
Estoup和Condon发现,fr=cr−1
Zipf对《尤利西斯》的频率词典进行研究,将频率变为概率pr,得到单参数齐普夫定律:pr=cr−1,c为常数,0
2.3 香农与信息熵
等概率随机试验的熵:H0=log2n不等概率随机试验的熵:H1=−Σpilog2pi
定义熵的最直观的办法,就是把熵想象成在最优编码中一定的判断或信息编码的位数的下界。
困惑度:2H,直观理解为在随机试验中选择随机变量的加权平均数。
条件熵:H=−ΣP(bi(n−1),j)log2Pbi(n−1)(j)
一重马尔科夫链(二元语法)对应一阶条件熵H2=−Σpijlog2pi(j)
随着马尔科夫链重数增大,条件熵越来越小:H0>=H1>=...>=H∞
2.4 Bar-Hillel的范畴语法
句法类型任何词可以根据它在句子中的功能归入一定的句法类型,如果用n表示名词的句法类型,用S表示句子,(这两种为原子范畴),则其他的一些句法类型(复合范畴)都可以用n和S以不同的方式结合起来表示。规则:
词C句法类型为γ,若词序列BC功能与β相同,则B的句法类型为β/γ
词A句法类型为α,若词序列AB功能与β相同,则B的句法类型为α\β
词A句法类型为α,词C句法类型为γ,若词序列ABC功能与β相同,则B的句法类型为α\β/γ
例如形容词修饰名词组成的词序列
poor John,句法功能和名词
John相同,所以形容词
poor的句法类型为
n/n,具体来说就是
poor John的句法功能为n / poor后边的John的句法类型为n
进而可以得出句法类型表
词类 | 句法类型 |
---|---|
n. | n |
a. | n/n |
vi. | n\S |
vt. | n\S/n |
adv. | (n\S)\n\S |
adv. | S\S |
adv. | n\S/(n\S) |
prep. | S\S/n |
conj. | S\S/S |
(α)(α\β) → β;
(β/γ)(γ) → β;
(α\β)(β\γ) → α\γ;
(α/β)(β/γ) → α/γ;
不能使用这四条规则通过有限次步骤转化为S的句子,则词序列不是该语言中合格的句子。
短语结构语法力图对句子进行切分,采用的是一种解析模式;
而范畴语法则力图反映句法类型的语义连锁,采用的是一种构造模式,将语义直接表示在句法中,与前者截然不同。
为了消除歧义、增强适应性等,需要引入更加复杂的句法类型和更多类型的演算规则。为此还制定了动词短语的句法类型表和运算表,(变得更加庞杂),不再赘述。
2.5 Harris的语言串分析法
Harris是美国结构主义语言学代表人物,也是乔姆斯基的老师词串:词,或词按照线性排列形成的符号串,如
客厅 里 坐 着 两 位 客人
串式:使用词类替换词或词串中的词形成的符号串,如
<N><FN><V><PART><NUM><MEA><N>
基本串:中心串、连接串、替换串。
制定规则(麻烦),对中心串进行扩充,得到各种复杂的句子。
一个串式具有抽象性和概括性,能够对应很多相同结构但对象和意思完全不同的句子。
套路正是如此:
提取抽象范式 → 用于匹配和检索同类 → 制定适应方法,将范式套到其他对象上,实现转移和重用 → 制定变化方法,实现对象变型;制定融合方法,实现合成
2.6 O.C.库拉金娜的语言集合论模型
使用集合论方法建立自然语言的数学模型,从词规约为词组,从词组规约为句子的层次分析过程。这部分俄语太多看不懂,看起来太费劲,而且我觉得细看也没啥意义,故跳过。
相关文章推荐
- 《自然语言计算机形式分析的理论与方法》读书笔记(1)
- 《自然语言计算机形式分析的理论与方法》读书笔记(5)
- 《自然语言计算机形式分析的理论与方法》读书笔记(3-1)
- 深入理解计算机系统读书笔记之一个简单汇编程序的调试分析
- 《驾驭大数据》:跟大数据关系不大,讲数据分析的理论、工具、方法、团队建设经验
- 计算机视觉基础(一)——左右手坐标系转换时R和T的具体形式分析
- 计算机辅助分析在单元串联式多电平叠加中压变频器理论方面的应用
- 《HTTP小书》读书笔记(3)请求之请求方法(关键词:计算机网络/HTTP/请求方法/GET/POST/OPTIONS/PUT/DELETE/CONNECT)
- 开发计算机并行性的方法【理论】
- 大数据时代 | 数据分析方法及理论详解
- 《计算机视觉-一种现代方法(第2版)》读书笔记二:图像形成
- 蓝屏含义原理分析处理方法代码电脑计算机故障系统安全 - 蓝屏知识大全
- 软件工程——理论、方法与实践 之 面相对象分析
- 分析计算机网络可靠性的方法的创新
- [读书笔记]Android LayoutInflater.inflate方法参数详解原理分析
- 《软件工程-理论、方法与实践》读书笔记二
- SCI收录的计算机科学 - 理论与方法类 - 期刊目录
- 防止网站被采集的理论分析以及十条方法对策第1/2页
- 【读书笔记-数据挖掘概念与技术】聚类分析:基本概念和方法
- 获取iOS任意线程调用堆栈(三)符号化理论:从Mach-o结构分析类名方法名