《Natural Language Processing》斯坦福视频学习笔记——2.text processing
2016-01-17 15:07
274 查看
本篇涉及到的文本处理,主要包含以下内容:
Lemmatization
Stemming
Porter Stemming Algorithm
判断一个单词是否是句尾单词
判断句尾单词的扩展条件
具体的笔记内容如下:
Lemmatization:使单词、句子还原
Stemming:使有相同词根的词还原
Porter Stemming Algorithm:词根还原算法,可以实现对英文单词进行还原英文单词的词性、词形变化,去掉前缀、后缀等等功能
[aeiou].*ing$:只有单词中存在aeiou才能删除结尾的ing,如king就不能删,而standing可以删。
缺陷:如living之类的词,删掉后变成liv,并没有真正意义上的还原
判断一个单词是否是句尾单词:
(1)之后有大量空白
(2)后面的标点是?!:
(3)当之后是一个片段时,之后无如etc等的缩略词。
决策树形式:
判断句尾单词的扩展条件:
(1)带.的单词的开头字母大小写、是否数字等
(2).之后的单词开头字母大小写、是否数字等
(3)带.的单词长度
(4)带.的单词在句尾的概率
(5).之后的单词在句首的概率
总结:
词根还原,简单的做法就是直接删除类别,再进一步就是分析单词本身结构,如是否带元音、删除之后是否要在最后加e等
单词、句子分析,不仅要分析其本身结构,还要考虑上下文特征
Lemmatization
Stemming
Porter Stemming Algorithm
判断一个单词是否是句尾单词
判断句尾单词的扩展条件
具体的笔记内容如下:
Lemmatization:使单词、句子还原
Stemming:使有相同词根的词还原
Porter Stemming Algorithm:词根还原算法,可以实现对英文单词进行还原英文单词的词性、词形变化,去掉前缀、后缀等等功能
[aeiou].*ing$:只有单词中存在aeiou才能删除结尾的ing,如king就不能删,而standing可以删。
缺陷:如living之类的词,删掉后变成liv,并没有真正意义上的还原
判断一个单词是否是句尾单词:
(1)之后有大量空白
(2)后面的标点是?!:
(3)当之后是一个片段时,之后无如etc等的缩略词。
决策树形式:
判断句尾单词的扩展条件:
(1)带.的单词的开头字母大小写、是否数字等
(2).之后的单词开头字母大小写、是否数字等
(3)带.的单词长度
(4)带.的单词在句尾的概率
(5).之后的单词在句首的概率
总结:
词根还原,简单的做法就是直接删除类别,再进一步就是分析单词本身结构,如是否带元音、删除之后是否要在最后加e等
单词、句子分析,不仅要分析其本身结构,还要考虑上下文特征
相关文章推荐
- JAVA OO 第二章知识点
- 创建存储过程,包及包体
- Web 通信 之 长连接、长轮询(long polling)
- MFC只运行一个实例
- css中的display属性
- iOS8中提示框的使用UIAlertController(UIAlertView和UIActionSheet二合一)
- MySQL主从同步
- 浅析Java中CountDownLatch用法
- CodeForces 584D Dima and Lisa
- JavaWeb_SpringMVC和titles的简单整合
- Mac OS下安装配置Scala
- Eclipse下Preferences解析
- sql语句中case-when用法
- zookeeper原理(转)
- 2016.01.17—-即便没有读者,你也要写博客
- 对《Netty权威指南》中的Http+xml协议栈开发的个人再整理
- 请教一个pip install 出现报asciii码错误的问题
- 【WC2002】奶牛浴场
- Android中下拉刷新和加载更多的实现方式
- hadoop基础:第三部分 分布式文件系统