关于sphinx的一点了解
2018-01-30 19:42
239 查看
一、什么是sphinx
sphinx是SQL Phrase Index(查询词组索引)的缩写,Sphinx是一个基于sql的全文检索引擎
Sphinx 全文检索引擎
Coreseek 支持中文的全文检索引擎
1.sphinx的机制两部分构成:生成索引+search索引
2.sphinx索引类型:普通索引+rt实时索引+分布式索引
二、sphinx优缺点
优点:1.高速的建立索引(在当代CPU上,可达到10MB/秒)
2.高性能的搜索
3、可处理海量数据
4、提供了优秀的相关度算法,基于短语相似度和统计BM2的复合Ranking方法
5、支持分布式搜索
6、提供文档片段(摘要以及高亮)生成功能
7、可作为MYSQL的存储引擎提供搜索服务
8、支持布尔、短语、词语相似度等多种检索模式
9、文档支持多个全文检索字段(最大不超过32个)
缺点:1、必须要有主键 2、主键必须为整型 3、不负责数据存储 4、配置不灵活
三、MySQL和Sphinx的全文检索区别:
1、他可以提供比数据库本身更专业的搜索功能,使得应用程序更容易实现专业化的全文检索
2、他是一个单独的服务器,具有很多MySQL自身不具备的扩展功能,性能更高,他存在于MySQL之前,更好的缓解数据库的压力等。
从根本上讲,我们所有操作都是围绕数据库展开的,也就是说我们要通过各种方法、各种手段,最大程度的减轻数据库的压力。
四、sphinx的应用场景
不管是网站还是app很多产品的设计思路和产品功能多多少少都有相似之处,那么这边主要讲以下几个场景
描述、话题的搜索
主要的实现思路是全量索引+增量索引方式,可设定时任务定点跑索引
用户昵称的搜索
主要是实现思路是实时索引+分布式索引的方式,用户由于过多,故使用实时索引的方法进行增加,旧数据通过跑脚本重新读取后再写入。
搜索框联想词的提示
主要实现思路是分布式索引的方式,自动联想其他人曾经输入过的词语。
tip: morphology = stem_en会启用英文单词的提取。搜索英文时候就不会一个一个字母搜了,会提高sphinx搜索英文单词的时候的效率。
五、sphinx 的实现原理?
Sphinx的整个工作流程就是Indexer程序到数据库里面提取数据,对数据进行分词,然后根据生成的分词生成单个或多个索引,并将它们传递给searchd程序。然后客户端可以通过API调用进行搜索。
六、数据搜索 sphinx xunsearch
xunsearch与sphinx原理上略有不同,xunsearch当然在创建索引时,其实他是创建了一个自己的数据库, 如果你用xunsearch去查寻数据时,他不会再到你的mysql数据库中去查寻了,而是直接到它本身的数据库中去查寻,然后返回数据,而sphinx 不是这样的,sphinx创建一些索引文件(索引表),然后通过sphinx去查寻数据时,首先他到索引文件查寻数据,然后返回的是当前要查寻数据的 id(这里id是主键),然后再通过id去到mysql数据中查寻数据,然后再返回给数据。
sphinx是SQL Phrase Index(查询词组索引)的缩写,Sphinx是一个基于sql的全文检索引擎
Sphinx 全文检索引擎
Coreseek 支持中文的全文检索引擎
1.sphinx的机制两部分构成:生成索引+search索引
2.sphinx索引类型:普通索引+rt实时索引+分布式索引
二、sphinx优缺点
优点:1.高速的建立索引(在当代CPU上,可达到10MB/秒)
2.高性能的搜索
3、可处理海量数据
4、提供了优秀的相关度算法,基于短语相似度和统计BM2的复合Ranking方法
5、支持分布式搜索
6、提供文档片段(摘要以及高亮)生成功能
7、可作为MYSQL的存储引擎提供搜索服务
8、支持布尔、短语、词语相似度等多种检索模式
9、文档支持多个全文检索字段(最大不超过32个)
缺点:1、必须要有主键 2、主键必须为整型 3、不负责数据存储 4、配置不灵活
三、MySQL和Sphinx的全文检索区别:
1、他可以提供比数据库本身更专业的搜索功能,使得应用程序更容易实现专业化的全文检索
2、他是一个单独的服务器,具有很多MySQL自身不具备的扩展功能,性能更高,他存在于MySQL之前,更好的缓解数据库的压力等。
从根本上讲,我们所有操作都是围绕数据库展开的,也就是说我们要通过各种方法、各种手段,最大程度的减轻数据库的压力。
四、sphinx的应用场景
不管是网站还是app很多产品的设计思路和产品功能多多少少都有相似之处,那么这边主要讲以下几个场景
描述、话题的搜索
主要的实现思路是全量索引+增量索引方式,可设定时任务定点跑索引
用户昵称的搜索
主要是实现思路是实时索引+分布式索引的方式,用户由于过多,故使用实时索引的方法进行增加,旧数据通过跑脚本重新读取后再写入。
搜索框联想词的提示
主要实现思路是分布式索引的方式,自动联想其他人曾经输入过的词语。
tip: morphology = stem_en会启用英文单词的提取。搜索英文时候就不会一个一个字母搜了,会提高sphinx搜索英文单词的时候的效率。
五、sphinx 的实现原理?
Sphinx的整个工作流程就是Indexer程序到数据库里面提取数据,对数据进行分词,然后根据生成的分词生成单个或多个索引,并将它们传递给searchd程序。然后客户端可以通过API调用进行搜索。
六、数据搜索 sphinx xunsearch
xunsearch与sphinx原理上略有不同,xunsearch当然在创建索引时,其实他是创建了一个自己的数据库, 如果你用xunsearch去查寻数据时,他不会再到你的mysql数据库中去查寻了,而是直接到它本身的数据库中去查寻,然后返回数据,而sphinx 不是这样的,sphinx创建一些索引文件(索引表),然后通过sphinx去查寻数据时,首先他到索引文件查寻数据,然后返回的是当前要查寻数据的 id(这里id是主键),然后再通过id去到mysql数据中查寻数据,然后再返回给数据。
相关文章推荐
- 关于CCIR656的一点基础了解
- 关于反爬虫的一点了解
- 关于SPOOL的一点了解
- 关于EditText的一点深入的了解
- 关于EditText的一点深入的了解
- 关于CCIR656/sRGB的一点基础了解
- 有关于静态方法的一点了解
- 关于CCIR656的一点基础了解
- 关于tomcat中全局参数context-param中的一点了解
- 关于EditText的一点深入的了解
- 关于寻址的一点猜想,以后真正了解了再修改
- 关于java中==号的一点了解
- 关于GUID的一点了解
- 关于arXive的一点了解
- 关于EditText的一点深入的了解
- 关于EditText的一点深入的了解
- 关于共有和私有ip的一点了解
- 关于Linux下串口通信的一点心得
- 深入了解一下PYTHON中关于SOCKETSERVER的模块-C
- 关于学习编程语言的一点建议