java lucene 技术 (2) :分词器
2008-03-30 00:31
393 查看
导读:
使用Lucene时,选择一个合适的分析器是非常关键的。对分析器的选择没有惟一的标准。待分析的语种是影响分析器选择的因素之一,因为每种语言都有其自身的特点。影响分析器选择的另一个因素是被分析的文本所属的领域,不同的行业有不同的术语、缩写词和缩略语,我们在分析过程中一定要注意这一点。尽管我们在选择分析器时考虑了很多因素,但是不存在任何一个分析器能适用于所有情况。有可能所有的Lucene内置分析器都不能满足你的需求,这时就得创建一个自定义分析解决方案。本章我将就Lucene的内置分析器以及网络上流行的开源分析器作出讲解。在开始文字讲解之前,我们先做一个简单的例子,可以使我们从一开始就有更直观的理解。
public class test {
private static final String[] examples = {
"The quick brown fox jumped over the lazy dogs",
"美国民主党总统候选人希拉利是前总统克林顿的夫人"
};
private static final Analyzer[] analyzers = new Analyzer[]{
new WhitespaceAnalyzer(),
new SimpleAnalyzer(),
new StopAnalyzer(),
new StandardAnalyzer(),
new MIK_CAnalyzer(), //需要引入IKAnalyzer.jar
newChineseAnalyzer(),
newCJKAnalyzer(),
new ThesaurusAnalyzer() //需要引入Thesaurus.jar
};
public static void main(String[] args) throws IOException {
String[] strings = examples;
if (args.length >0) {
strings = args;
}
for (int i = 0; i
使用Lucene时,选择一个合适的分析器是非常关键的。对分析器的选择没有惟一的标准。待分析的语种是影响分析器选择的因素之一,因为每种语言都有其自身的特点。影响分析器选择的另一个因素是被分析的文本所属的领域,不同的行业有不同的术语、缩写词和缩略语,我们在分析过程中一定要注意这一点。尽管我们在选择分析器时考虑了很多因素,但是不存在任何一个分析器能适用于所有情况。有可能所有的Lucene内置分析器都不能满足你的需求,这时就得创建一个自定义分析解决方案。本章我将就Lucene的内置分析器以及网络上流行的开源分析器作出讲解。在开始文字讲解之前,我们先做一个简单的例子,可以使我们从一开始就有更直观的理解。
public class test {
private static final String[] examples = {
"The quick brown fox jumped over the lazy dogs",
"美国民主党总统候选人希拉利是前总统克林顿的夫人"
};
private static final Analyzer[] analyzers = new Analyzer[]{
new WhitespaceAnalyzer(),
new SimpleAnalyzer(),
new StopAnalyzer(),
new StandardAnalyzer(),
new MIK_CAnalyzer(), //需要引入IKAnalyzer.jar
newChineseAnalyzer(),
newCJKAnalyzer(),
new ThesaurusAnalyzer() //需要引入Thesaurus.jar
};
public static void main(String[] args) throws IOException {
String[] strings = examples;
if (args.length >0) {
strings = args;
}
for (int i = 0; i
相关文章推荐
- 推荐站点:java,lucene,nutch,搜索技术文章集合
- Java Lucene (2):分词器
- java鬼混笔记:lucene 4、中文分词器--IKAnalyzer
- 解密搜索引擎技术实战:Lucene &Java精华版(第2版)
- JAVA_WEB项目之Lucene使用中文分词器IKAnalyzer3.2.8
- OSCHina技术导向:Java全文搜索框架Lucene
- 解密搜索引擎技术实战:Lucene&Java精华版
- 【好书推介】解密搜索引擎技术实战:Lucene&Java精华版
- 未来电视—JAVA电视技术
- JAVA 国外 相关技术 站点
- 【JAVA秒会技术之秒杀面试官】JavaEE常见面试题(四)
- 基于java技术的软件开发架构总结
- java虚拟机与java技术
- java开发技术的标准与开源之争
- 【java技术】日期+自增长 流水号生成策略
- 基于java技术的软件开发架构总结
- Java Web技术总结(二):Java Web Servlet开发流程图
- java核心技术 之基础知识(一)
- 小博老师解析JavaWeb核心技术 ——AJAX第一弹
- Java研发方向技术面试指南