lucene 分词实现
2015-11-18 00:27
274 查看
一、概念认识
1、常用的Analyer
SimpleAnalyzer、StopAnalyzer、WhitespaceAnalyzer、StandardAnalyzer
2、TokenStream
分词器做好处理之后得到的一个流,这个流中存储了分词的各种信息,可以通过TokenStream有效的获取到分词单元信息生成的流程
在这个流中所需要存储的数据
3、Tokenizer
主要负责接收字符流Reader,将Reader进行分词操作。有如下一些实现类
4、TokenFilter
将分词的语汇单元,进行各种各样过滤
5、内置常用分词器分词进行分词的差异
?
?
?
6、中文分词
?
?
7、位置增量、位置偏移量、分词单元、分词器的类型
?
8、停用分词器
?
?
9、简单实现同义词索引
?
?
?
?
1、常用的Analyer
SimpleAnalyzer、StopAnalyzer、WhitespaceAnalyzer、StandardAnalyzer
2、TokenStream
分词器做好处理之后得到的一个流,这个流中存储了分词的各种信息,可以通过TokenStream有效的获取到分词单元信息生成的流程
在这个流中所需要存储的数据
3、Tokenizer
主要负责接收字符流Reader,将Reader进行分词操作。有如下一些实现类
4、TokenFilter
将分词的语汇单元,进行各种各样过滤
5、内置常用分词器分词进行分词的差异
?
6、中文分词
?
7、位置增量、位置偏移量、分词单元、分词器的类型
?
8、停用分词器
?
9、简单实现同义词索引
?
相关文章推荐
- UVa-340 - Master-Mind Hints
- Android有未接来电后处理(判断未接来电)
- spring mvc怎么获取上传文件的原路径
- Windows Store 应用中获取程序集版本号的方法
- 201355315宋宸宁\20135333苏正生信息安全系统设计基础——实验一实验报告
- 冲刺总结
- 南大软院大神养成计划——第二天
- Nginx反向代理
- mina框架分析---2
- ubuntu zip解压
- iOS 网络请求类封装
- 10014---JavaWeb基础--请求重定向与请求转发
- 顺序表的查找
- Chapter 5-04
- 解决在 WP8/ WP8.1 项目中 引用 C++ 组件时出现的 System.TypeLoadException 错误
- Visual Studio 要求导入 pfx 密钥以及导入后依然要求导入的解决办法
- Android蓝牙开发的一些经验
- babel无法编译?
- null相关
- Qt 框架的图形性能高(OpenGL上的系统效率高),网络性能低,开发效率高,Quick是可以走硬件加速——Qt中分为好几套图形系统,差不多代表了2D描画的发展史。最经典的软描画系统