您的位置：首页 > 其它

solr中文全文检索

2017-05-19 11:21 288 查看

其实简单的说，Solr是一个基于Apache Lucene 项目的开源企业级搜索平台，是用JAVA编写的、运行在Servlet容器中的一个独立的全文搜索服务器（换句话说就是个JAVA-WEB APP），并具有类似REST的HTTP/XML和JSON的API。

主要功能包括全文检索，高亮命中，分面搜索(faceted search)，近实时索引，动态集群，数据库集成，富文本索引，空间搜索；通过提供分布式索引，复制，负载均衡查询，自动故障转移和恢复，集中配置等功能实现高可用，可伸缩和可容错。

Solr和Lucene的关系

Solr是Lucene的一个子项目，它在Lucene的基础上进行包装，成为一个企业级搜索服务器开发框架。

Solr与Lucene的主要区别体现在：

Solr更加贴近实际应用，是Lucene在面向企业搜索服务领域的扩展；
Solr的缓存等机制使全文检索获得性能上的提升；通过配置文件的开发使得Solr具有良好的扩展性；
Solr提供了用户友好的管理界面与查询结果界面。

1.去官网下载solr

http://www-eu.apache.org/dist/lucene/solr/6.5.1/

还需要安装java环境这里就不说了请先自行安装java

2.解压进入文件夹启动

bin/solr start

通过浏览器访问 http://localhost:8983即可看到Solr的管理界面。上面的这条命令是按照单机模式启动，还有cloud模式，顾名思义应该是solr集群了。

3.创建一个SolrCore

首先保证Solr正常启动了

在命令行中新建。转到$Solr.Install.Dir,输入一下命令：

bin/solr create -c test

在/server/solr 目录下会有一个 test文件夹

4.从mysql导入数据

这个是我的表数据

+----+----------+---------+--------------------------------+
| id | userName | userAge | userAddress                    |
+----+----------+---------+--------------------------------+
|  1 | summer   |      30 | shanghai                       |
|  2 | test1    |      22 | suzhou                         |
|  3 | test1    |      29 | some place                     |
|  4 | lu       |      28 | some place                     |
|  5 | xiaoxun  |      27 | nanjing                        |
|  6 | xiaoli   |      50 | 北京市大兴区丽园小区           |
|  7 | zhanlu   |      50 | 上海市浦东新区                 |
|  8 | xiaolsdf |      50 | 黑龙江省哈尔滨市               |
+----+----------+---------+--------------------------------+

首先导入两个jar分别是solr-dataimporthandler-5.5.0.jar和mysql-connector-java-5.1.38-bin.jar，前一个可以在solr的解压目录下的dist目录中获取，后一个我想大家都可以找到的。

将这两个jar包复制到$Solr.Install.Dir/server/solr-webapp/webapp/WEB-INF/lib这个目录下。

1.　默认dataImport功能在Solr中是禁用的，需要在$SolrHome/conf/solrconfig.xml(我的目录是server/solr/test)中添加如下配置开启数据导入功能：

<!-- Data import from mysql 要放在<config></config>中哦-->

<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
<lst name="defaults">
<str name="config">data-config.xml</str>
</lst>
</requestHandler>

因为前面定义了导入的配置文件是data-config.xml，所以在solrconfig.xml同级目录下新建这个文件，贴出我的配置，内容如下：

<dataConfig>
<dataSource name="fromMysql"
type="JdbcDataSource"
driver="com.mysql.jdbc.Driver"
url="jdbc:mysql://localhost:3306/mybatis"
user="root"
password="root23place"/>
<document>

<entity name="user" query="SELECT * FROM user" transformer="RegexTransformer">
<field column="id" name="id"/>
<field column="userName" name="userName"/>
<field column="userAge" name="userAge"/>
<field column="userAddress" name="userAddress"/>
</entity>

</document>
</dataConfig>

其中fromMysql为数据源自定义名称，随便取，没什么约束，type这是固定值，表示JDBC数据源，后面的driver表示JDBC驱动类，这跟你使用的数据库有关，url即JDBC链接URL(mybatis是我要连接的数据库的名字就是database),后面的user，password分别表示链接数据库的账号密码，下面的entity映射有点类似hiberante的mapping映射，column即数据库表的列名称，name即schema.xml中定义的域名称。

在 schema.xml（如果没有就新建一个）中加入

<field name="userName" type="string" indexed="true" stored="false" multiValued="true"/>
<field name="userAge" type="string" indexed="true" stored="false" multiValued="true"/>
<field name="userAddress" type="string" indexed="true" stored="false" multiValued="true"/>

这里面的字段就是你数据库里要导入的字段

**重启Solr，进入管理页面，选中test这个Core，进入Dataimport这个选项。如果一切正常会出现如下图所示的界面。

下面开始导入

full-import:全量导入，它会覆盖原有的索引
delta-import:即增量导入，它会在原有索引的基础上追加

下面的几个多选框含义解释如下：

verbose:这个选项设为true的话，会打印导入的一些中间过程的详细信息，有利于调试以及了解内部操作细节
clean:表示是否在导入数据创建索引之前先清空掉原有的索引
commit:表示是否立即提交索引
optimize:表示是否优化索引
debug: 表示是否开启调试模式

选择你的entity

点击execute导入

我们可以通过Refresh Status这个按钮刷新状态，如果出现错误或者Fetched一直是0，那就表明有问题了，你要查看日志进行检查。如果导入成功，就会看到下图所示的情况：

在查询中点击Execute Query按钮,就能看到我们导进去并建好索引的信息，更具体的查询用法后面会讲到，下面是默认的查询，显示文档的所有信息。

这样就基本成功了

下面来做中文支持

分词方法很多我们采用mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器，并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用

将下载的mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar复制到Solr.Install.Dir/server/solr−webapp/webapp/WEB−INF/lib。如果你用的是Tomcat作为servlet，那么可以路径就应该是TomcatDir/webapps/solr/WEB-INF/lib。

配置分词，修改schema.xml配置，末尾增加如下：

<fieldtype name="textComplex" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" />
</analyzer>
</fieldtype>
<fieldtype name="textMaxWord" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" />
</analyzer>
</fieldtype>
<fieldtype name="textSimple" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" />
</analyzer>
</fieldtype>

在 schema.xml中修改

<field name="userAddress" type="textComplex" indexed="true" stored="false" multiValued="true"/>

重启 solr

在query中进行测试

说明中文支持成功！

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： solr 中文全文索引

相关文章推荐

新的分享

章节导航