您的位置：首页 > 产品设计 > UI/UE

lucene-2.9.0 数值类型的索引和检索分析

2009-11-05 11:51 483 查看

主要涉及几个类

NumericRangeQuery 数值型检索类，含(NumericRangeTermEnum)数值型词项迭代器

NumericUtils               索引和检索时，数值型运算类

NumericTokenStream 索引时解析数值型字段的类

NumericField

一、核心函数

1.1 数值转换函数intToPrefixCoded

    // 关键函数，使用前缀码转换将数值用字符串表示
    // 数值使用前缀码转换(intToPrefixCoded)为字符串

public static int intToPrefixCoded(final int val, final int shift, final char[] buffer)
{
    if (shift>31 || shift<0)
      throw new IllegalArgumentException("Illegal shift value, must be 0..31");

    // 10000000000000000000000000000000
    // 0000 0000 0001 0001 0101 0100 0000 1010
    // 1000 0000 0000 0000 0000 0000 0000 0000
    // 1000 0000 0001 0001 0101 0100 0000 1010
    // 补码 - 取反加一
    // 1000 0000 0001 0001 0101 0100 0000 1001
    // 0111 1111 1110 1110 1010 1011 1111 0110
    int nChars = (31-shift)/7 + 1, len = nChars+1;
    buffer[0] = (char)( shift);

    int sortableBits = val ^ 0x80000000;//异或
    sortableBits >>>= shift; // 逻辑移位

    System.out.println(sortableBits);

    while (nChars>=1)
    {
      // Store 7 bits per character for good efficiency when UTF-8 encoding.
      // The whole number is right-justified so that lucene can prefix-encode
      // the terms more efficiently.

      buffer[nChars--] = (char)(sortableBits & 0x7f); // & 1111111 // 取低七位

      sortableBits >>>= 7; // 右移七位

    }

    // 低位字节存储高位值，这样比较可以从高位起

    return len;
}

例如对
      int nMinLongitude = 1135626;
      int nMaxLongitude = 1135632;
做前缀码转换(intToPrefixCoded)为字符串
由于低位字节存储高位值，因此数字高位的相同意味着字符串前缀的相同

字符串内容(取码值)由低位至高位为
8 0 69 40 10 和
8 0 69 40 16
可见他们有相同的前缀，因为lucene在词项编码存储的时候使用了相同前缀编码
因此此两个int用字符串表示的词项有相同前缀且顺序稳定(做排序而言)

1.2 位图标记函数

位图标记过程

public void set(long index)
{
    int wordNum = expandingWordNum(index); // 第几个字节
    int bit = (int)index & 0x3f;           // 第几位置1
    long bitmask = 1L << bit;
    bits[wordNum] |= bitmask;
}

调用过程
IndexSearcher.search(Weight, Filter, Collector) line: 245
ConstantScoreQuery$ConstantWeight.scorer(IndexReader, boolean, boolean) line: 81
ConstantScoreQuery$ConstantScorer.<init>(ConstantScoreQuery, Similarity, IndexReader, Weight) line: 116
MultiTermQueryWrapperFilter.getDocIdSet(IndexReader) line: 171
MultiTermQueryWrapperFilter$2(MultiTermQueryWrapperFilter$TermGenerator).generate(IndexReader, TermEnum) line: 115
MultiTermQueryWrapperFilter$2.handleDoc(int) line: 169
OpenBitSet.set(long) line: 233

二、索引过程
索引
使用intToPrefixCoded函数将数值转换为字符串
转换结果，数值高位依次相等，字符串前缀依次相同，这样的结果是在查询时可以从值较小开始扫描，以后取的词项都是
前缀相同且值较大的词项或者值较大的词项。满足了区间扫描的过程

三、检索过程
检索
// 构建数值型查询
Integer min = new Integer(nMinLongitude);
Integer max = new Integer(nMaxLongitude);

// 生成数值型查询类NumericRangeQuery，可设置查询的步长
Query query = NumericRangeQuery.newIntRange(field,min, max,true, true);// 标志位为是否包括上下确界

// 重写query,生成用于数值型查询的词项迭代器NumericRangeTermEnum
调用过程如下
IndexSearcher(Searcher).createWeight(Query) line: 232
NumericRangeQuery(Query).weight(Searcher) line: 98
IndexSearcher.rewrite(Query) line: 306
NumericRangeQuery(MultiTermQuery).rewrite(IndexReader) line: 382
MultiTermQuery$1(MultiTermQuery$ConstantScoreAutoRewrite).rewrite(IndexReader, MultiTermQuery) line: 227
NumericRangeQuery.getEnum(IndexReader) line: 302

protected FilteredTermEnum getEnum(final IndexReader reader)
{
    生成词项迭代器
    return new NumericRangeTermEnum(reader);
}

// 生成迭代器同时依旧步长切分数值范围(若干个块)
NumericUtils.splitIntRange(new NumericUtils.IntRangeBuilder()
// 切分值填充于rangeBounds,每个块有上下确界

// 过程续上一步
NumericRangeQuery$NumericRangeTermEnum.<init>(NumericRangeQuery, IndexReader) line: 449
NumericUtils.splitIntRange(NumericUtils$IntRangeBuilder, int, int, int) line: 359
NumericUtils.splitRange(Object, int, int, long, long) line: 367


遍历所有合符条件的词项，根据词项的postings做位图标记

// 执行过程如下
IndexSearcher(Searcher).search(Query, Collector) line: 130
IndexSearcher.search(Weight, Filter, Collector) line: 245
ConstantScoreQuery$ConstantWeight.scorer(IndexReader, boolean, boolean) line: 81
ConstantScoreQuery$ConstantScorer.<init>(ConstantScoreQuery, Similarity, IndexReader, Weight) line: 116
MultiTermQueryWrapperFilter.getDocIdSet(IndexReader) line: 171
(MultiTermQueryWrapperFilter$TermGenerator).generate(IndexReader, TermEnum) line: 100
MultiTermQueryWrapperFilter$2

// 位图标记过程
abstract class MultiTermQueryWrapperFilter::TermGenerator
{
    public void generate(IndexReader reader, TermEnum enumerator) throws IOException
{
      final int[] docs = new int[32];
      final int[] freqs = new int[32];

      TermDocs termDocs = reader.termDocs();

      try {
        int termCount = 0;
        do {
          Term term = enumerator.term(); // "enumerator"= NumericRangeTermEnum (id=579)

          if (term == null)
            break;
          termCount++;
          termDocs.seek(term);

          while (true) {
            // 读取该词项的postings

            final int count = termDocs.read(docs, freqs);

           if (count != 0)
            {
              for(int i=0;i<count;i++)
              {
                handleDoc(docs[i]); // 标记过程
              }
            } else {
              break;
            }
          }
        } while (enumerator.next());

        query.incTotalNumberOfTerms(termCount); // 下一个符合的词项

      } finally {
        termDocs.close();
      }
    }
    abstract public void handleDoc(int doc);
}

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： integer query lucene buffer filter character

相关文章推荐

新的分享

章节导航