您的位置:首页 > 其它

《Natural Language Processing》斯坦福视频学习笔记——2.text processing

2016-01-17 15:07 274 查看
本篇涉及到的文本处理,主要包含以下内容:

Lemmatization
Stemming
Porter Stemming Algorithm
判断一个单词是否是句尾单词
判断句尾单词的扩展条件

具体的笔记内容如下:

Lemmatization:使单词、句子还原
Stemming:使有相同词根的词还原
Porter Stemming Algorithm:词根还原算法,可以实现对英文单词进行还原英文单词的词性、词形变化,去掉前缀、后缀等等功能





[aeiou].*ing$:只有单词中存在aeiou才能删除结尾的ing,如king就不能删,而standing可以删。

缺陷:如living之类的词,删掉后变成liv,并没有真正意义上的还原
判断一个单词是否是句尾单词:

(1)之后有大量空白

(2)后面的标点是?!:

(3)当之后是一个片段时,之后无如etc等的缩略词。

决策树形式:





判断句尾单词的扩展条件:

(1)带.的单词的开头字母大小写、是否数字等

(2).之后的单词开头字母大小写、是否数字等

(3)带.的单词长度

(4)带.的单词在句尾的概率

(5).之后的单词在句首的概率

总结:

词根还原,简单的做法就是直接删除类别,再进一步就是分析单词本身结构,如是否带元音、删除之后是否要在最后加e等

单词、句子分析,不仅要分析其本身结构,还要考虑上下文特征
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: