您的位置:首页 > 其它

PyLucene学习之一

2016-02-03 11:06 267 查看

简介

Lucene是一款高性能的、可扩展的信息检索工具库。

信息检索是指文档搜索,文档内信息搜索或者文档相关的元数据搜索等操作。

Lucene只是搜索程序的核心索引和搜索模块

搜索程序首先需要实现的功能是索引链, 分为以下几个步骤:

1. 检索原始内容

2. 根据原始内容来创建对应的文档

3. 对创建的文档进行索引

Raw Content -> Acquire Content -> Build Document -> Analyze Document -> Index Docuement -> Index

为了快速搜索大量的文本,必须首先建立针对文本索引,将文本内容转换成能够进行快速搜索的格式,从而消除慢速顺序扫描处理带来的影响。此过程称为索引操作,输出就是索引。

索引组件:

获取内容:爬虫或者其他方式获取待索引的文本内容,Lucene并不提供这方面支持

建立文档

文档分析

将文本分割成一系列被称为语汇单元的独立的原子元素,这个步骤即决定文档中的文本域如何分割成语汇单元系列。

文档索引

搜索组件:

搜索质量衡量:查准率, 查全率

1. 用户搜索界面(自己用,可以写的搓一些)

2. 建立查询(Luence存在默认的查询解析器)

3. 搜索查询

查询检索索引并返回与查询语句匹配的文档

4. 展现结果
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: