程序员批注《语言学教程》——第三章 从语素到短语
2016-06-06 02:35
573 查看
本章前言:
跳过了第二章[语音],语音识别方面较为独立,然而我的目标更偏自然语言理解 Natural Language Understanding (NLU) 。 这章主要讲英语的词语层面的知识,具体来说,从语素到短语,是这个表格(语法“级阶”(Rank))的后三层:句子
小句
短语/词组
词
语素
英文词级阶的诸多要点,可以迁移到汉语,但个人认为这些只是语言上的琐碎知识,增加知识底蕴用的;工程层面不必过分追求。汉语在这个层面上,分词方法(Chinese Segmentation)到是非常重要,这篇文章并未涉猎。
另外,6月4日,又一位伟大的战士离我们而去,
"
They (champions) have to have the skill, and the will. But the will must be stronger than the skill
"
纪念拳王阿里。
![](http://i.imgur.com/ZRfq8jx.jpg)
3.1 什么是语素
语素(Morpheme),最小的语言学(一般指字母文字中,汉语中我认为也有,但远少于英文)单位。(个人感觉这部分跟NLP关系不是很大)
a. 语素分类法:
自由语素(Free Morpheme)和黏着语素(Bound Morpheme)
dogs中:dog是自由语素,能自由出现,s是黏着语素。另外复合词中,可能有多个自由语素出现,如:
moonwalk sunflower (汉语中复合词问题,大概是在分词或者POS tagging中处理)
词根(Root)、词缀(Affix)和词干(Stem)
词根:不能做进一步分析,否则会破坏意义。如internationalism中的nation词缀:附着在词根或词干上的语素,para-graph,mini-shirt是前缀,revolut-ion colon-ize是后缀,也有中缀
词干:可以是词根,也可以是[词根+词缀],但一定确定是跟了词缀
屈折词缀和派生词缀
b. 语素变体(Allomorph)illogical imbalance irregular inactive 有共同语素 in-。il im ir in都是in-的便提。其他例子如名词复数中-s -es -en -ee等
c. 形态变化
古代英语中,尤其是屈折变化
3.2 什么是词
模糊定义:词是语素与词组之间的东东特性:
稳定性(nothingness不能重新排列成nessnothing)
相对连续性(两个词之间可以插别的词)
最小的自由形式(单一词的句子)
词的分类法:
1. 可变化词和非变化词
可变化词,如英语中的动词时态变化,单复数变化。不可变化词,不一一列举。2. 实义词(Content Word)和功能词(Function Word)
功能词(又叫语法词)是指参与词组、句子、语篇构建的一类词,大致包括:连词、介词、冠词等实义词(又叫词汇词)是指指称物质、动作、性质的一类次,大致包括:名词、动词、形容词、副词等
3. 封闭类词和开放类词
封闭类词,数量有限,很难创造和衍生开放类词,相反
4. 词类(word class)
最常见的分类方法,传统语法中part of speech的概念。传统英语语法分析中,9类词类:
名词(noun)
代词(pronoun)
形容词(adj)
动词(verb)
副词(adv)
介词(preposition)
连词(conjuction)
感叹词(interjection)
冠词(article)_
以及4类新增补词汇:
助词(particle)
助动词(auxiliary)
代词形式(代词替代词汇,代词形式替代多个词)
限定词(determiner)
3.3 & 3.4 词的形成
屈折变化(inflection):通过附加屈折词缀,以表现语法关系。如[数]table/tables [人称]open/opens/opening/opened [格] boy/boy's派生类(derivation)和复合类(compound):派生,如词类相互变换;复合,见之前讲过的复合词。
新词汇(科技领域,经济生活,政经领域,军务、文化)
3.5 词组和短语
这两个名词位于“级阶”(Rank)的同一层,是“词”和“小句”的承接。Halliday对两者的区别为:词组一组词,是词的扩展;短语是小句的压缩。以下为词组的例子
名词词组(例: those two splendid old electric trains with pantographs)
动词词组(例: was going to have been working)
副词词组(例: much more quickly than I could count)
连词词组(例: not until)
介词词组(例: right behind the door)
相比之下,介词短语为:
the people on the burning deck
作者解释大概是on作半动词,为主动宾结构。个人认为,后面的修饰跟people的关系不是很大,所以列为短语。
但是个人看来,短语和词组的差别不是很大,NLP中没必要区分。
![](http://i.imgur.com/HymqHvI.jpg)
本章完,下章讲《从词语到篇章》,重头戏。
相关文章推荐
- 脱颖而出! 面试英语的一些小技巧
- 程序员常会用到的软件有哪些
- js操作符类型转换大全(前端面试题之操作符)
- 总结前端面试过程中最容易出现的问题
- Freelancer自由工作离我们还有多远?
- 黑马程序员——Java基础---面向对象之多态抽象类接口
- 黑马程序员——Java基础---面向对象代码块和继承和this和super和重写和重载和final
- 面试题17:合并两个排序的链表
- Hibernate常见面试知识点
- JAVA程序员必看的15本书
- 软件工程师的职业规划
- 面试小问题
- 适合程序员的画图技法
- 适合程序员的画图技法
- 鸡汤君_一个老程序员的建议66
- 面试题——找单独数字
- 面试(一)
- 剑指Offer----面试题24:二叉搜索树的后序遍历序列
- Android面试题整理
- java面试笔试题整理