PyLucene学习之一
2016-02-03 11:06
267 查看
简介
Lucene是一款高性能的、可扩展的信息检索工具库。信息检索是指文档搜索,文档内信息搜索或者文档相关的元数据搜索等操作。
Lucene只是搜索程序的核心索引和搜索模块
搜索程序首先需要实现的功能是索引链, 分为以下几个步骤:
1. 检索原始内容
2. 根据原始内容来创建对应的文档
3. 对创建的文档进行索引
Raw Content -> Acquire Content -> Build Document -> Analyze Document -> Index Docuement -> Index
为了快速搜索大量的文本,必须首先建立针对文本索引,将文本内容转换成能够进行快速搜索的格式,从而消除慢速顺序扫描处理带来的影响。此过程称为索引操作,输出就是索引。
索引组件:
获取内容:爬虫或者其他方式获取待索引的文本内容,Lucene并不提供这方面支持建立文档
文档分析
将文本分割成一系列被称为语汇单元的独立的原子元素,这个步骤即决定文档中的文本域如何分割成语汇单元系列。
文档索引
搜索组件:
搜索质量衡量:查准率, 查全率1. 用户搜索界面(自己用,可以写的搓一些)
2. 建立查询(Luence存在默认的查询解析器)
3. 搜索查询
查询检索索引并返回与查询语句匹配的文档
4. 展现结果
相关文章推荐
- iOS CAGradientLayer 详解
- unity5中AssetBundle相关
- 学习笔记--树链剖分
- 计算机网络——计算机网络基础知识总结
- Linux下Redis的安装和部署
- AVSpeechSynthesizer 语音合成器
- 排序算法
- [Eclipse问题]A class file was not written. The project may be inconsistent
- C++ string 字符串详解
- Cinder Columns
- 想成为嵌入式程序员应知道的0x10个基本问题
- Linux下升成动态链接库.so文件
- swift如何判断debug模式和release模式
- C++ 总结
- iphone序列号的意义
- 数字化运营使能系统的架构和应用部署
- CentOs6.5 通过vncserver安装oracle
- An unspecified error occurred!
- AMQP协议
- springMVC整合FastJson实现RestFul风格API