您的位置:首页 > 编程语言 > Java开发

java lucene 技术 (2) :分词器

2008-03-30 00:31 393 查看
导读:
  使用Lucene时,选择一个合适的分析器是非常关键的。对分析器的选择没有惟一的标准。待分析的语种是影响分析器选择的因素之一,因为每种语言都有其自身的特点。影响分析器选择的另一个因素是被分析的文本所属的领域,不同的行业有不同的术语、缩写词和缩略语,我们在分析过程中一定要注意这一点。尽管我们在选择分析器时考虑了很多因素,但是不存在任何一个分析器能适用于所有情况。有可能所有的Lucene内置分析器都不能满足你的需求,这时就得创建一个自定义分析解决方案。本章我将就Lucene的内置分析器以及网络上流行的开源分析器作出讲解。在开始文字讲解之前,我们先做一个简单的例子,可以使我们从一开始就有更直观的理解。
  
  public class test {
  private static final String[] examples = {
  "The quick brown fox jumped over the lazy dogs",
  "美国民主党总统候选人希拉利是前总统克林顿的夫人"
  };
  
  private static final Analyzer[] analyzers = new Analyzer[]{
  new WhitespaceAnalyzer(),
  new SimpleAnalyzer(),
  new StopAnalyzer(),
  new StandardAnalyzer(),
  new MIK_CAnalyzer(), //需要引入IKAnalyzer.jar
  newChineseAnalyzer(),
  newCJKAnalyzer(),
  new ThesaurusAnalyzer() //需要引入Thesaurus.jar
  };
  
  public static void main(String[] args) throws IOException {
  String[] strings = examples;
  if (args.length >0) {
  strings = args;
  }
  for (int i = 0; i
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: