solr中文全文检索
2017-05-19 11:21
288 查看
其实简单的说,Solr是一个基于Apache Lucene 项目的开源企业级搜索平台,是用JAVA编写的、运行在Servlet容器中的一个独立的全文搜索服务器(换句话说就是个JAVA-WEB APP),并具有类似REST的HTTP/XML和JSON的API。
主要功能包括全文检索,高亮命中,分面搜索(faceted search),近实时索引,动态集群,数据库集成,富文本索引,空间搜索;通过提供分布式索引,复制,负载均衡查询,自动故障转移和恢复,集中配置等功能实现高可用,可伸缩和可容错。
Solr和Lucene的关系
Solr是Lucene的一个子项目,它在Lucene的基础上进行包装,成为一个企业级搜索服务器开发框架。
Solr与Lucene的主要区别体现在:
1.去官网下载solr
还需要安装java环境 这里就不说了 请先自行安装java
2.解压 进入文件夹 启动
通过浏览器访问 http://localhost:8983即可看到Solr的管理界面。上面的这条命令是按照单机模式启动,还有cloud模式,顾名思义应该是solr集群了。
![](https://img-blog.csdn.net/20170519102051089?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvd2FuZ2d1b3lhbmc0Mjk4ODM3OTM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
3.创建一个SolrCore
首先保证Solr正常启动了
在命令行中新建。转到$Solr.Install.Dir,输入一下命令:
在/server/solr 目录下 会有一个 test文件夹
4.从mysql导入数据
这个是我的表数据
首先导入两个jar分别是solr-dataimporthandler-5.5.0.jar和mysql-connector-java-5.1.38-bin.jar,前一个可以在solr的解压目录下的dist目录中获取,后一个我想大家都可以找到的。
将这两个jar包复制到$Solr.Install.Dir/server/solr-webapp/webapp/WEB-INF/lib这个目录下。
1. 默认dataImport功能在Solr中是禁用的,需要在$SolrHome/conf/solrconfig.xml(我的目录是server/solr/test)中添加如下配置开启数据导入功能:
因为前面定义了导入的配置文件是data-config.xml,所以在solrconfig.xml同级目录下新建这个文件,贴出我的配置,内容如下:
其中fromMysql为数据源自定义名称,随便取,没什么约束,type这是固定值,表示JDBC数据源,后面的driver表示JDBC驱动类,这跟你使用的数据库有关,url即JDBC链接URL(mybatis是我要连接的数据库的名字就是database),后面的user,password分别表示链接数据库的账号密码,下面的entity映射有点类似hiberante的mapping映射,column即数据库表的列名称,name即schema.xml中定义的域名称。
在 schema.xml(如果没有就新建一个)中加入
这里面的字段就是你数据库里要导入的字段
**重启Solr,进入管理页面,选中test这个Core,进入Dataimport这个选项。如果一切正常会出现如下图所示的界面。
![](https://img-blog.csdn.net/20170519110024693?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvd2FuZ2d1b3lhbmc0Mjk4ODM3OTM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
下面开始导入
![](https://img-blog.csdn.net/20170519110254631?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvd2FuZ2d1b3lhbmc0Mjk4ODM3OTM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
下面的几个多选框含义解释如下:
选择你的entity
![](https://img-blog.csdn.net/20170519110433636?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvd2FuZ2d1b3lhbmc0Mjk4ODM3OTM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
点击execute导入
我们可以通过Refresh Status这个按钮刷新状态,如果出现错误或者Fetched一直是0,那就表明有问题了,你要查看日志进行检查。如果导入成功,就会看到下图所示的情况:
![](https://img-blog.csdn.net/20170519110547663?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvd2FuZ2d1b3lhbmc0Mjk4ODM3OTM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
在查询中点击Execute Query按钮,就能看到我们导进去并建好索引的信息,更具体的查询用法后面会讲到,下面是默认的查询,显示文档的所有信息。
![](https://img-blog.csdn.net/20170519110639992?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvd2FuZ2d1b3lhbmc0Mjk4ODM3OTM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
这样就基本成功了
将下载的mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar复制到Solr.Install.Dir/server/solr−webapp/webapp/WEB−INF/lib。如果你用的是Tomcat作为servlet,那么可以路径就应该是TomcatDir/webapps/solr/WEB-INF/lib。
配置分词,修改schema.xml配置,末尾增加如下:
在 schema.xml中修改
重启 solr
在query中进行测试
![](https://img-blog.csdn.net/20170519111723762?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvd2FuZ2d1b3lhbmc0Mjk4ODM3OTM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)
说明中文支持成功!
主要功能包括全文检索,高亮命中,分面搜索(faceted search),近实时索引,动态集群,数据库集成,富文本索引,空间搜索;通过提供分布式索引,复制,负载均衡查询,自动故障转移和恢复,集中配置等功能实现高可用,可伸缩和可容错。
Solr和Lucene的关系
Solr是Lucene的一个子项目,它在Lucene的基础上进行包装,成为一个企业级搜索服务器开发框架。
Solr与Lucene的主要区别体现在:
Solr更加贴近实际应用,是Lucene在面向企业搜索服务领域的扩展; Solr的缓存等机制使全文检索获得性能上的提升;通过配置文件的开发使得Solr具有良好的扩展性; Solr提供了用户友好的管理界面与查询结果界面。
1.去官网下载solr
http://www-eu.apache.org/dist/lucene/solr/6.5.1/
还需要安装java环境 这里就不说了 请先自行安装java
2.解压 进入文件夹 启动
bin/solr start
通过浏览器访问 http://localhost:8983即可看到Solr的管理界面。上面的这条命令是按照单机模式启动,还有cloud模式,顾名思义应该是solr集群了。
3.创建一个SolrCore
首先保证Solr正常启动了
在命令行中新建。转到$Solr.Install.Dir,输入一下命令:
bin/solr create -c test
在/server/solr 目录下 会有一个 test文件夹
4.从mysql导入数据
这个是我的表数据
+----+----------+---------+--------------------------------+ | id | userName | userAge | userAddress | +----+----------+---------+--------------------------------+ | 1 | summer | 30 | shanghai | | 2 | test1 | 22 | suzhou | | 3 | test1 | 29 | some place | | 4 | lu | 28 | some place | | 5 | xiaoxun | 27 | nanjing | | 6 | xiaoli | 50 | 北京市大兴区丽园小区 | | 7 | zhanlu | 50 | 上海市浦东新区 | | 8 | xiaolsdf | 50 | 黑龙江省哈尔滨市 | +----+----------+---------+--------------------------------+
首先导入两个jar分别是solr-dataimporthandler-5.5.0.jar和mysql-connector-java-5.1.38-bin.jar,前一个可以在solr的解压目录下的dist目录中获取,后一个我想大家都可以找到的。
将这两个jar包复制到$Solr.Install.Dir/server/solr-webapp/webapp/WEB-INF/lib这个目录下。
1. 默认dataImport功能在Solr中是禁用的,需要在$SolrHome/conf/solrconfig.xml(我的目录是server/solr/test)中添加如下配置开启数据导入功能:
<!-- Data import from mysql 要放在<config></config>中哦--> <requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler"> <lst name="defaults"> <str name="config">data-config.xml</str> </lst> </requestHandler>
因为前面定义了导入的配置文件是data-config.xml,所以在solrconfig.xml同级目录下新建这个文件,贴出我的配置,内容如下:
<dataConfig> <dataSource name="fromMysql" type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost:3306/mybatis" user="root" password="root23place"/> <document> <entity name="user" query="SELECT * FROM user" transformer="RegexTransformer"> <field column="id" name="id"/> <field column="userName" name="userName"/> <field column="userAge" name="userAge"/> <field column="userAddress" name="userAddress"/> </entity> </document> </dataConfig>
其中fromMysql为数据源自定义名称,随便取,没什么约束,type这是固定值,表示JDBC数据源,后面的driver表示JDBC驱动类,这跟你使用的数据库有关,url即JDBC链接URL(mybatis是我要连接的数据库的名字就是database),后面的user,password分别表示链接数据库的账号密码,下面的entity映射有点类似hiberante的mapping映射,column即数据库表的列名称,name即schema.xml中定义的域名称。
在 schema.xml(如果没有就新建一个)中加入
<field name="userName" type="string" indexed="true" stored="false" multiValued="true"/> <field name="userAge" type="string" indexed="true" stored="false" multiValued="true"/> <field name="userAddress" type="string" indexed="true" stored="false" multiValued="true"/>
这里面的字段就是你数据库里要导入的字段
**重启Solr,进入管理页面,选中test这个Core,进入Dataimport这个选项。如果一切正常会出现如下图所示的界面。
下面开始导入
full-import:全量导入,它会覆盖原有的索引 delta-import:即增量导入,它会在原有索引的基础上追加
下面的几个多选框含义解释如下:
verbose:这个选项设为true的话,会打印导入的一些中间过程的详细信息,有利于调试以及了解内部操作细节 clean:表示是否在导入数据创建索引之前先清空掉原有的索引 commit:表示是否立即提交索引 optimize:表示是否优化索引 debug: 表示是否开启调试模式
选择你的entity
点击execute导入
我们可以通过Refresh Status这个按钮刷新状态,如果出现错误或者Fetched一直是0,那就表明有问题了,你要查看日志进行检查。如果导入成功,就会看到下图所示的情况:
在查询中点击Execute Query按钮,就能看到我们导进去并建好索引的信息,更具体的查询用法后面会讲到,下面是默认的查询,显示文档的所有信息。
这样就基本成功了
下面来做中文支持
分词方法很多 我们采用mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用将下载的mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar复制到Solr.Install.Dir/server/solr−webapp/webapp/WEB−INF/lib。如果你用的是Tomcat作为servlet,那么可以路径就应该是TomcatDir/webapps/solr/WEB-INF/lib。
配置分词,修改schema.xml配置,末尾增加如下:
<fieldtype name="textComplex" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" /> </analyzer> </fieldtype> <fieldtype name="textMaxWord" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" /> </analyzer> </fieldtype> <fieldtype name="textSimple" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" /> </analyzer> </fieldtype>
在 schema.xml中修改
<field name="userAddress" type="textComplex" indexed="true" stored="false" multiValued="true"/>
重启 solr
在query中进行测试
说明中文支持成功!
相关文章推荐
- 全文检索引擎Solr系列——整合中文分词组件mmseg4j
- 你不知道的全文检索---solr安装中文分词器及配置业务字段
- 全文检索引擎Solr系列——整合中文分…
- 全文检索框架solr6和Analyzer词法分析器(中文用paoding)
- 全文检索引擎Solr系列——整合中文分词组件mmseg4j
- 全文检索引擎Solr系列——整合中文分词组件IKAnalyzer
- 全文检索引擎Solr系列——整合中文分词组件IKAnalyzer
- 全文检索引擎Solr系列——整合中文分词组件mmseg4j
- 全文检索引擎Solr系列——整合中文分词组件IKAnalyzer
- 全文检索引擎Solr系列——整合中文分词组件mmseg4j
- solr全文检索服务器与tomact整合 IK Analyzer 2012FF_hf1 中文分词器的配置
- 10005---全文检索引擎Solr系列—–全文检索基本原理
- MySQL数据库中文全文检索解决方案
- 使用Solr构建企业级的全文检索(四)---------写入文档
- solr全文检索(第二篇 solr的实例)--源自技术
- 支持中文的MySQL 5.1+ 全文检索分词插件
- 全文检索引擎Solr系列—–全文检索基本原理
- 关于基于postgresQL的中文全文检索感受
- Solr全文检索服务器搭建与基本使用介绍
- 《自然语言处理技术在中文全文检索中的应用》笔记