您的位置:首页 > 职场人生

程序员批注《语言学教程》——第三章 从语素到短语

2016-06-06 02:35 573 查看


本章前言:

跳过了第二章[语音],语音识别方面较为独立,然而我的目标更偏自然语言理解 Natural Language Understanding (NLU) 。 这章主要讲英语的词语层面的知识,具体来说,从语素到短语,是这个表格(语法“级阶”(Rank))的后三层:
句子
小句
短语/词组

语素
英文词级阶的诸多要点,可以迁移到汉语,但个人认为这些只是语言上的琐碎知识,增加知识底蕴用的;工程层面不必过分追求。汉语在这个层面上,分词方法(Chinese Segmentation)到是非常重要,这篇文章并未涉猎。
另外,6月4日,又一位伟大的战士离我们而去,
"
They (champions) have to have the skill, and the will. But the will must be stronger than the skill

"
纪念拳王阿里。



3.1 什么是语素

语素(Morpheme),最小的语言学(一般指字母文字中,汉语中我认为也有,但远少于英文)单位。
(个人感觉这部分跟NLP关系不是很大)
a. 语素分类法:

自由语素(Free Morpheme)和黏着语素(Bound Morpheme)

dogs中:dog是自由语素,能自由出现,s是黏着语素。
另外复合词中,可能有多个自由语素出现,如:
moonwalk sunflower (汉语中复合词问题,大概是在分词或者POS tagging中处理)

词根(Root)、词缀(Affix)和词干(Stem)

词根:不能做进一步分析,否则会破坏意义。如internationalism中的nation
词缀:附着在词根或词干上的语素,para-graph,mini-shirt是前缀,revolut-ion colon-ize是后缀,也有中缀
词干:可以是词根,也可以是[词根+词缀],但一定确定是跟了词缀

屈折词缀和派生词缀

b. 语素变体(Allomorph)
illogical imbalance irregular inactive 有共同语素 in-。il im ir in都是in-的便提。其他例子如名词复数中-s -es -en -ee等
c. 形态变化
古代英语中,尤其是屈折变化

3.2 什么是词

模糊定义:词是语素与词组之间的东东
特性:

稳定性(nothingness不能重新排列成nessnothing)

相对连续性(两个词之间可以插别的词)

最小的自由形式(单一词的句子)

词的分类法:

1. 可变化词和非变化词

可变化词,如英语中的动词时态变化,单复数变化。不可变化词,不一一列举。

2. 实义词(Content Word)和功能词(Function Word)

功能词(又叫语法词)是指参与词组、句子、语篇构建的一类词,大致包括:连词、介词、冠词等
实义词(又叫词汇词)是指指称物质、动作、性质的一类次,大致包括:名词、动词、形容词、副词等

3. 封闭类词和开放类词

封闭类词,数量有限,很难创造和衍生
开放类词,相反

4. 词类(word class)

最常见的分类方法,传统语法中part of speech的概念。
传统英语语法分析中,9类词类:
名词(noun)
代词(pronoun)
形容词(adj)
动词(verb)
副词(adv)
介词(preposition)
连词(conjuction)
感叹词(interjection)
冠词(article)_
以及4类新增补词汇:
助词(particle)
助动词(auxiliary)
代词形式(代词替代词汇,代词形式替代多个词)
限定词(determiner)

3.3 & 3.4 词的形成

屈折变化(inflection):通过附加屈折词缀,以表现语法关系。如[数]table/tables [人称]open/opens/opening/opened [格] boy/boy's

派生类(derivation)和复合类(compound):派生,如词类相互变换;复合,见之前讲过的复合词。

新词汇(科技领域,经济生活,政经领域,军务、文化)

3.5 词组和短语

这两个名词位于“级阶”(Rank)的同一层,是“词”和“小句”的承接。Halliday对两者的区别为:词组一组词,是词的扩展;短语是小句的压缩。
以下为词组的例子
名词词组(例: those two splendid old electric trains with pantographs)
动词词组(例: was going to have been working)
副词词组(例: much more quickly than I could count)
连词词组(例: not until)
介词词组(例: right behind the door)
相比之下,介词短语为:
the people on the burning deck
作者解释大概是on作半动词,为主动宾结构。个人认为,后面的修饰跟people的关系不是很大,所以列为短语。
但是个人看来,短语和词组的差别不是很大,NLP中没必要区分。



本章完,下章讲《从词语到篇章》,重头戏。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: