您的位置:首页 > 产品设计 > UI/UE

理解lucene内几个核心概念

2012-03-19 16:00 281 查看
核心索引类:


IndexWriter

创建一个新的索引并且添加文档到一个已有的索引中,可以对索引进行增删改操作,但是不能查找。

Directory:

Lucene 索引的存放位置,是一个抽象类

实现类:

    FSDirectory:在文件系统的目录中创建索引

    RAMDirectory:在内存中创建索引

Analyzer:

分词器,在 IndexWriter 的构造函数中指定,用于文本内容提取关键词。

Document:

文件在lucene中的映射,是一个字段的集合

Field

每个 Document 含有一个或多个字段,具体化为 Field 类。每个字段相应于数据的一个片段

Lucene 提供四个不同的字段类型

Keyword—不被分析,但是被索引并逐字存储到索引中

UnIndexed—不被分析也不被索引,但是它的值存储到索引中。

UnStored—和 UnIndexed 相反。这个字段类型被分析并索引但是不存储在索引中。
Text—被分析并索引。

基本搜索接口:

IndexSearcher

用来搜索,简单的接受单个 Query 对象做为参数并返回一个 Hits 对象

Term

搜索的基本单元。与 Field 对象类似,它由一对字符串元素组成:字段的名称和字段的值。

Query

抽象父类。它包含一些通用方法,如 setBoost(float)用来设置权重,具体实现类有 TermQuery, BooleanQuery , PhraseQuery, PrefixQuery,PhrasePrefixQuery, RangeQuery, FilteredQuery 和 SpanQuery

Hits

Hits 类是一个搜索结果(匹配给定查询的文档)文档队列指针的简单容器。基于性能考虑,Hits的实例并不从索引中加载所有匹配查询的所有文档,而是每次加载一小部分
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息