《自然语言计算机形式分析的理论与方法》读书笔记(1)
2017-07-03 12:35
218 查看
在阅读学习《统计自然语言处理》一书的过程中了解到了冯志伟老师,感叹先生之风,山高水长,于是买了先生最新的著作、国内关于基于规则的自然语言处理方法的集大成之作——《自然语言计算机形式分析的理论与方法》一书拜读。此时我也在构思二维图案与三维场景自动分析的方法和论文,这个领域和NLP略有不同,规则方法久未有大的创新,统计方法仍然则局限在很窄的小点。希望借此机会能够从书中吸取规则和统计结合的思想,以促进灵感发生,做出一点微不足道的工作。
自然语言处理的过程
自然语言处理还涉及计算机科学、数学、心理学、哲学、统计学、电子工程、生物学等领域的知识,是一个多边缘交叉的学科。
每一个从事自然语言处理的人,都应该尽量使自己成为文理兼通、博学多识的人
语言学
数据处理
人工智能和认知科学
语言工程
13大内容:
口语输入
语音识别
信号表示
鲁棒的语音识别
隐马尔科夫模型方法
语言模型
说话人识别
口语理解
书面语输入
文献格式识别
光学字符识别OCR
手写界面
手写文字分析(如签名验证)
语言分析和理解
小于句子单位的处理
语法形式化(CFG,LFG等)
针对基于约束的语法编写的词表
计算语义学
句子建模与剖析技术
鲁棒的剖析技术
语言生成
句法生成
深层生成
口语输出
合成语音生成
文本-语音合成TTS
口语生成
话语分析与对话
话语建模
对话建模
口语对话系统
文献处理
文献检索
文本解释:信息抽取
文本内容归纳
文本写作和编辑的计算机支持
工业和企业中使用的受限语言
多语
机器翻译
人助机译
机助人译
多语言信息检索
多语言语音识别
自动语种验证
多模态
空间和时间的表示方法
文本与图像处理
口语与收拾的模态结合
口语与面部信息的模态结合:面部运动与语音识别
信息的传输与存储
语音编码
语音品质提升
自然语言处理中的数学方法
统计建模与分类的数学理论
DSP
剖析算法
联结主义(如神经网络)
有限状态分析
语音和语言处理中的最优化技术和搜索技术
语言资源
书面语料库
口语语料库
机器词典与词网
术语编纂技术数据库
网络数据挖掘与信息提取
自然语言处理系统的评测
面向任务的文本分析评测
机器翻译系统和翻译工具的评测
大覆盖面的自然语言剖析器的评测
人的因素与用户的可接受性
语音识别:评估与评测
语音合成评测
系统的可用性与界面的评测
语音通信质量的评测
文字识别的评测
乔姆斯基:形式语言理论
香农:概率和信息论模型
20世纪50年代末-60年代中期,NLP分为符号派和随机派
83-93年回归到被否定的有限状态模型和经验主义方法中去
部分领域的研究成果商品化
越来越多使用机器学习的方法来获取语言知识
统计数学方法越来越受到重视
越来越重视词汇的作用,呈现强烈的“词汇主义”倾向
我国的NLP水平与国际相差很大
第一章 自然语言处理的学科定位
使用计算机技术来研究和处理自然语言始于20世纪40年代末。1.1 从自然语言处理的过程来考察其学科定位
建立自然语言处理模型需要如下九个不同平面的知识:领域 | 解释 | 用途 |
---|---|---|
声学和韵律学 | 描述语言的节奏、语调和声调规律 | 说明语音怎样形成音位 |
音位学 | 描述音位的结合规律 | 说明音位怎样形成语素 |
形态学 | 描述语素的结合规律 | 说明语素怎样形成单词 |
词汇学 | 描述词汇系统的规律 | 说明单词本身固有的语义特性和语法特性 |
句法学 | 描述单词(或词组)之间的结构规则 | 说明单词(或词组)怎样形成句子 |
语义学 | 描述句子中各个成分之间的语义关系(情景无关) | 说明怎样从构成句子的各个成分中推导出整个句子的语义 |
话语分析 | 描述句子句子之间的结构规律 | 说明怎样由句子形成话语或对话 |
语用学 | 描述与情境有关的情景语义 | 说明怎样推导出句子具有的与与周围话语有关的各种含义 |
外界世界的常识性知识 | 描述关于语言使用者和语言使用环境的一般性常识,如语言使用者的信念和目的 | 说明怎样推导出这样的信念和目的内在结构 |
自然语言处理还涉及计算机科学、数学、心理学、哲学、统计学、电子工程、生物学等领域的知识,是一个多边缘交叉的学科。
每一个从事自然语言处理的人,都应该尽量使自己成为文理兼通、博学多识的人
1.2 从自然语言的处理范围来考察其学科定位
四大方向:语言学
数据处理
人工智能和认知科学
语言工程
13大内容:
口语输入
语音识别
信号表示
鲁棒的语音识别
隐马尔科夫模型方法
语言模型
说话人识别
口语理解
书面语输入
文献格式识别
光学字符识别OCR
手写界面
手写文字分析(如签名验证)
语言分析和理解
小于句子单位的处理
语法形式化(CFG,LFG等)
针对基于约束的语法编写的词表
计算语义学
句子建模与剖析技术
鲁棒的剖析技术
语言生成
句法生成
深层生成
口语输出
合成语音生成
文本-语音合成TTS
口语生成
话语分析与对话
话语建模
对话建模
口语对话系统
文献处理
文献检索
文本解释:信息抽取
文本内容归纳
文本写作和编辑的计算机支持
工业和企业中使用的受限语言
多语
机器翻译
人助机译
机助人译
多语言信息检索
多语言语音识别
自动语种验证
多模态
空间和时间的表示方法
文本与图像处理
口语与收拾的模态结合
口语与面部信息的模态结合:面部运动与语音识别
信息的传输与存储
语音编码
语音品质提升
自然语言处理中的数学方法
统计建模与分类的数学理论
DSP
剖析算法
联结主义(如神经网络)
有限状态分析
语音和语言处理中的最优化技术和搜索技术
语言资源
书面语料库
口语语料库
机器词典与词网
术语编纂技术数据库
网络数据挖掘与信息提取
自然语言处理系统的评测
面向任务的文本分析评测
机器翻译系统和翻译工具的评测
大覆盖面的自然语言剖析器的评测
人的因素与用户的可接受性
语音识别:评估与评测
语音合成评测
系统的可用性与界面的评测
语音通信质量的评测
文字识别的评测
1.3 从自然语言处理的历史来考察其学科定位
1.3.1 萌芽期(20世纪40-50年代末)
图灵:算法计算模型乔姆斯基:形式语言理论
香农:概率和信息论模型
20世纪50年代末-60年代中期,NLP分为符号派和随机派
1.3.2 发展期(20世纪60年代中期-80年代末期)
机器翻译、语音识别和NLU大发展83-93年回归到被否定的有限状态模型和经验主义方法中去
1.3.3 繁荣期(20世纪90年代开始)
概率和数据驱动的方法几乎成了标准方法部分领域的研究成果商品化
1.4 当前自然语言处理发展的几个特点
基于句法-语义规则的理性主义方法受到质疑越来越多使用机器学习的方法来获取语言知识
统计数学方法越来越受到重视
越来越重视词汇的作用,呈现强烈的“词汇主义”倾向
我国情况
中文汉字在互联网上的使用情况还不能过分乐观我国的NLP水平与国际相差很大
使用计算机处理自然语言的过程:
Created with Raphaël 2.1.0抽象成问题形式化形式模型算法计算模型相关文章推荐
- 《自然语言计算机形式分析的理论与方法》读书笔记(2)
- 《自然语言计算机形式分析的理论与方法》读书笔记(5)
- 《自然语言计算机形式分析的理论与方法》读书笔记(3-1)
- 深入理解计算机系统读书笔记之一个简单汇编程序的调试分析
- 《驾驭大数据》:跟大数据关系不大,讲数据分析的理论、工具、方法、团队建设经验
- 计算机视觉基础(一)——左右手坐标系转换时R和T的具体形式分析
- 计算机辅助分析在单元串联式多电平叠加中压变频器理论方面的应用
- 《HTTP小书》读书笔记(3)请求之请求方法(关键词:计算机网络/HTTP/请求方法/GET/POST/OPTIONS/PUT/DELETE/CONNECT)
- 开发计算机并行性的方法【理论】
- 大数据时代 | 数据分析方法及理论详解
- 《计算机视觉-一种现代方法(第2版)》读书笔记二:图像形成
- 蓝屏含义原理分析处理方法代码电脑计算机故障系统安全 - 蓝屏知识大全
- 软件工程——理论、方法与实践 之 面相对象分析
- 分析计算机网络可靠性的方法的创新
- [读书笔记]Android LayoutInflater.inflate方法参数详解原理分析
- 《软件工程-理论、方法与实践》读书笔记二
- SCI收录的计算机科学 - 理论与方法类 - 期刊目录
- 防止网站被采集的理论分析以及十条方法对策第1/2页
- 【读书笔记-数据挖掘概念与技术】聚类分析:基本概念和方法
- 获取iOS任意线程调用堆栈(三)符号化理论:从Mach-o结构分析类名方法名