您的位置:首页 > 理论基础

《自然语言计算机形式分析的理论与方法》读书笔记(1)

2017-07-03 12:35 218 查看
在阅读学习《统计自然语言处理》一书的过程中了解到了冯志伟老师,感叹先生之风,山高水长,于是买了先生最新的著作、国内关于基于规则的自然语言处理方法的集大成之作——《自然语言计算机形式分析的理论与方法》一书拜读。此时我也在构思二维图案与三维场景自动分析的方法和论文,这个领域和NLP略有不同,规则方法久未有大的创新,统计方法仍然则局限在很窄的小点。希望借此机会能够从书中吸取规则和统计结合的思想,以促进灵感发生,做出一点微不足道的工作。

第一章 自然语言处理的学科定位

使用计算机技术来研究和处理自然语言始于20世纪40年代末。

1.1 从自然语言处理的过程来考察其学科定位

建立自然语言处理模型需要如下九个不同平面的知识:

领域解释用途
声学和韵律学描述语言的节奏、语调和声调规律说明语音怎样形成音位
音位学描述音位的结合规律说明音位怎样形成语素
形态学描述语素的结合规律说明语素怎样形成单词
词汇学描述词汇系统的规律说明单词本身固有的语义特性和语法特性
句法学描述单词(或词组)之间的结构规则说明单词(或词组)怎样形成句子
语义学描述句子中各个成分之间的语义关系(情景无关)说明怎样从构成句子的各个成分中推导出整个句子的语义
话语分析描述句子句子之间的结构规律说明怎样由句子形成话语或对话
语用学描述与情境有关的情景语义说明怎样推导出句子具有的与与周围话语有关的各种含义
外界世界的常识性知识描述关于语言使用者和语言使用环境的一般性常识,如语言使用者的信念和目的说明怎样推导出这样的信念和目的内在结构
自然语言处理的过程



自然语言处理还涉及计算机科学、数学、心理学、哲学、统计学、电子工程、生物学等领域的知识,是一个多边缘交叉的学科。

每一个从事自然语言处理的人,都应该尽量使自己成为文理兼通、博学多识的人

1.2 从自然语言的处理范围来考察其学科定位

四大方向:

语言学

数据处理

人工智能和认知科学

语言工程

13大内容:

口语输入

语音识别

信号表示

鲁棒的语音识别

隐马尔科夫模型方法

语言模型

说话人识别

口语理解

书面语输入

文献格式识别

光学字符识别OCR

手写界面

手写文字分析(如签名验证)

语言分析和理解

小于句子单位的处理

语法形式化(CFG,LFG等)

针对基于约束的语法编写的词表

计算语义学

句子建模与剖析技术

鲁棒的剖析技术

语言生成

句法生成

深层生成

口语输出

合成语音生成

文本-语音合成TTS

口语生成

话语分析与对话

话语建模

对话建模

口语对话系统

文献处理

文献检索

文本解释:信息抽取

文本内容归纳

文本写作和编辑的计算机支持

工业和企业中使用的受限语言

多语

机器翻译

人助机译

机助人译

多语言信息检索

多语言语音识别

自动语种验证

多模态

空间和时间的表示方法

文本与图像处理

口语与收拾的模态结合

口语与面部信息的模态结合:面部运动与语音识别

信息的传输与存储

语音编码

语音品质提升

自然语言处理中的数学方法

统计建模与分类的数学理论

DSP

剖析算法

联结主义(如神经网络)

有限状态分析

语音和语言处理中的最优化技术和搜索技术

语言资源

书面语料库

口语语料库

机器词典与词网

术语编纂技术数据库

网络数据挖掘与信息提取

自然语言处理系统的评测

面向任务的文本分析评测

机器翻译系统和翻译工具的评测

大覆盖面的自然语言剖析器的评测

人的因素与用户的可接受性

语音识别:评估与评测

语音合成评测

系统的可用性与界面的评测

语音通信质量的评测

文字识别的评测

1.3 从自然语言处理的历史来考察其学科定位

1.3.1 萌芽期(20世纪40-50年代末)

图灵:算法计算模型

乔姆斯基:形式语言理论

香农:概率和信息论模型

20世纪50年代末-60年代中期,NLP分为符号派随机派

1.3.2 发展期(20世纪60年代中期-80年代末期)

机器翻译、语音识别和NLU大发展

83-93年回归到被否定的有限状态模型和经验主义方法中去

1.3.3 繁荣期(20世纪90年代开始)

概率和数据驱动的方法几乎成了标准方法

部分领域的研究成果商品化

1.4 当前自然语言处理发展的几个特点

基于句法-语义规则的理性主义方法受到质疑

越来越多使用机器学习的方法来获取语言知识

统计数学方法越来越受到重视

越来越重视词汇的作用,呈现强烈的“词汇主义”倾向

我国情况

中文汉字在互联网上的使用情况还不能过分乐观

我国的NLP水平与国际相差很大

使用计算机处理自然语言的过程:

Created with Raphaël 2.1.0抽象成问题形式化形式模型算法计算模型
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
相关文章推荐