您的位置:首页 > 其它

词干提取和词形还原

2016-01-06 10:52 246 查看
词干提取(stemming)和词形还原(Lemmatisation)一直弄不清谁是谁,找到一篇解释的到位的一篇文章,以备注

原博文地址:http://www.tuicool.com/articles/JfE7Nb

词干提取( Stemming ) 这是西方语言特有的处理,比如说英文单词有 单数复数的变形,-ing和-ed的变形,但是在计算相关性的时候,应该当做同一个单词。比如 apple和apples,doing和done是同一个词,提取词干的目的就是要合并这些变态

Stemming有3大主流算法

Porter Stemming

Lovins stemmer

Lancaster Stemming

Lucene 英文分词自带了3个stemming算法,分别是:

1. EnglishMinimalStemmer

2. 著名的 Porter Stemming

3. KStemmer

词干提取算法并不复杂,要么是一堆规则,要么用映射表,编程容易,但是必须是这种语言的专家,了解构词法才行啊
http://text-processing.com/demo/stem/ 是一个在线试验词干提取算法的网站

Lemmatisation

Lemmatisation是和词干提取(Stemming) 齐名的一个语言学名词,中文可以叫做 词形还原 ,就是通过查询字典,把 "drove" 还原到 "drive" 

而stemming会把单词变短,"apples","apple"处理之后都变成了 "appl"
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  机器学习