您的位置:首页 > 其它

lucene 分词实现

2015-11-18 00:27 274 查看
一、概念认识

1、常用的Analyer

SimpleAnalyzer、StopAnalyzer、WhitespaceAnalyzer、StandardAnalyzer

2、TokenStream

分词器做好处理之后得到的一个流,这个流中存储了分词的各种信息,可以通过TokenStream有效的获取到分词单元信息生成的流程





在这个流中所需要存储的数据





3、Tokenizer

主要负责接收字符流Reader,将Reader进行分词操作。有如下一些实现类





4、TokenFilter

将分词的语汇单元,进行各种各样过滤





5、内置常用分词器分词进行分词的差异

?
?
?




6、中文分词

?
?




7、位置增量、位置偏移量、分词单元、分词器的类型

?








8、停用分词器

?
?




9、简单实现同义词索引

?
?
?
?


内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: