四、Solr数据源配置(JNDI、DIH)及定时重做索引
2015-07-21 13:38
225 查看
简介
Solr支持很多种创建索引的方式,包括网页,xml以及数据库,因为我这边做的是企业级的搜索,所以用的是数据库建立索引。其实从数据库建立索引,很大程度上取决于原来的数据库设计。从数据库建立索引,solr官方是提供一个工具的—Data Import Handler。在下载的solr中可以找到相关的jar包:
solr-dataimporthandler-4.9.0.jar
solr-dataimporthandler-extras-4.9.0.jar
将这两个jar包添加进web-inf/lib中
Solr/example中有example-DIH的项目,用了hsqldb作为数据库演示了DIH的使用。读者有兴趣可以去看下,这里就介绍我的配置方法。
DIH还支持增量索引,即在上次建立索引的基础上,只导入增量的数据。这个需要数据表设计的比较好,能够有字段区分,比如创建日期。这里我并没有使用增量索引。
Solrconfig.xml配置
在每个核心中的solrconfig.xml中配置dataimport:<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
<lst name="defaults">
<str name="config">dbconf/db.xml</str>
</lst>
</requestHandler>
<str name="config">dbconf/db.xml</str>的路径最好使用相对路径。是与solrconfig.xml文件的相对路径
Db.xml配置
在solrconfig.xml中配置好了db.xml所在的路径后,接下来就来配置db.xml。先来看个最简单的配置:
<dataConfig>
<dataSource name="song" jndiName="java:comp/env/jdbc/song" type="JdbcDataSource"
url="jdbc:mysql://localhost:3306/test" user="root"
password="jing"/>
<document>
<entity name="Artist" dataSource="song" query="select
ArtistID,Name from artist'">
<field column="ArtistID" name="Artist_ID" />
<field column="Name" name="Artist_Name" />
</entity>
</document>
</dataConfig>
dataSource
所使用的数据源,其中name为可选的,随便起,主要在使用多数据源时供下面使用。
Document
代表一个文档
Entity
即需要从数据库中取出的数据,起的名字会在web客户端页面看到,支持sql语句,支持多表查询。跨库查询后面会介绍
Field
即接受到的数据,列名column是数据库字段,name="Artist_ID"是索引中的名称,必须和schema.xml中field定义的名字一样。
Schema.xml配置
<field name="Artist_ID" type="int" indexed="true" stored="true" multiValued="false" /><field name="Artist_Name" type="text_ik" indexed="true" stored="true" multiValued="false"/>
配置相应的field。
导入和测试
如上图所示,点击excute即可将数据库中的数据导入索引库。
多数据源配置
多数据源是非常有用的一个配置。比如用户的信息存储在user表中,但是用户的分类存储在category表中,这两个表用userid联系起来,那么用多数据源的配置会非常简单。当时我并不知道怎样配置多数据源,结果导致我的SQL非常长,并且如果需要同时用到mysql和oracle时,只能用两个核心来实现(使用多数据源后,可以再一个核心索引库里配置)。数据源jndi的配置就不说了。
主要是DB.xml的配置:
<dataConfig>
<dataSource name="song" jndiName="java:comp/env/jdbc/song" type="JdbcDataSource"
url="jdbc:mysql://localhost:3306/test" user="root" password="jing"/>
<dataSource name="songCategory" jndiName="java:comp/env/jdbc/songCategoty"type="JdbcDataSource"
url="jdbc:mysql://localhost:3306/test" user="root" password="jing"/>
<document>
<entity name="Song" query="SELECT
songID,name FROM song">
<field column="songID" name="songID" />
<field column="name" name="Name" />
</entity>
<entity name="SongCategory" dataSource="SongCategory" query="select
categoryName from songcategory where songID=${Song.songID}">
<field column="categoryName " name="categoryName " />
</entity>
</document>
</dataConfig>
如上面的配置,其实配置是比较简单的,主要是SQL和数据的组织。可以看到DIH的功能是非常强大的。
定时重做索引
在用solr生成索引时,还有一个需求就是定期重做索引,官方是不支持此功能的,需要使用一个修改过的第三方jar:solr-dataimportscheduler-1.1.jar。下载地址: https://code.google.com/p/solr-dataimport-scheduler/
但是这个版本会有一个问题,它是使用post请求访问到solr服务器端,并没有制定content-type,导致出错,需要修改源码。
所以附件提供修改后的jar包下载(下载配置后即可使用):
配置:
步骤一:
在solr hom根目录中新建conf文件夹
步骤二:
将solr-dataimportscheduler-1.1.jar包解压缩取出dataimport.properties复制到上一步建立的conf文件夹中。并把solr-dataimportscheduler-1.1.jar导入项目
步骤三:
修改tomcat发布的webapps/solr/WEB-INF/web.xml(或者修改solr.war中WEB-INF/web.xml), 在servlet节点前面增加:
<listener>
<listener-class>org.apache.solr.handler.dataimport.scheduler.ApplicationListener
</listener-class>
</listener>
步骤四:
在dataimport.properties中配置相关的信息,都比较简单,读者可以自行看文件中的注释就明白了,特别说下重做索引的URL,如下:
# 重做索引的参数
reBuildIndexParams=/select?qt=/dataimport&command=full-import&clean=true&commit=true
#reBuildIndexParams=/dataimport?command=full-import&clean=true&commit=true
两种方式都可以。
加上其他的配置信息,如localhost,port,syncCores等等,其实原理就是根据配置信息生成一个带有重做索引命令的url,然后定期访问该url即可。自己在项目中实现一个定时器也可以实现:)
定时增量索引
如果是增量索引,就稍微麻烦一些,首先你必须在数据表中定义1个时间字段:create_date,名称随意,主要通知solr需要导入的新纪录的时间(solr建立索引会在各个core下生成dataimport.properties,里面last_index_time=2014-03-07 14\:48\:27记录了上次建立索引的时间,需要你指定create_date在这个时间之后的记录进行增量)接下来需要你在db.xml增加如下配置:
<dataConfig> <dataSource driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost:3306/test" user="root" password="jing" /> <document> <entity name="tuser" query="SELECT tid, tname,tdate FROM tuser;" deltaQuery="select tid from tuser where tdate>'${dataimporter.last_index_time}'" deltaImportQuery="select tid, tname,tdate from tuser where tid='${dataimporter.delta.tid}'" > <field column='tid' name='t_id' /> <field column='tname' name='t_name' /> <field column='tdate' name='t_date' /> </entity> </document> </dataConfig>
含义如下:
deltaQuery 查询出所有增量记录(返回主键)
deltaImportQuery 通过deltaQuery查询出的id查询需要增量的数据
附件
点击下载
相关文章推荐
- Magento 获取当前分类的image(如果是子分类就获取它父分类的)
- 使用 Chrome 开发者工具进行 JavaScript 问题定位与调试
- sql server int 列 NULLIF,isnull 判断是0还是1 ,如果是0就变成1
- Java调用存储过程时报 The user specified as a definer ('root'@'%') does not exist 解决方法...
- 三、Solr多核心及分词器(IK)配置
- 函数内部用setTimeout()调用自身函数相当于setInterval()
- Java调用存储过程时报 The user specified as a definer ('root'@'%') does not exist 解决方法
- 大数——10000以内的阶乘
- Num 2: 九度: 题目1192:回文字符串
- linux中fork()函数详解
- 二、Solr安装(Tomcat)
- Spinner下拉列表
- C# 微信服务号开发基础 完整代码
- 自我提升
- [UnityUI]循环滑动列表
- VNC连接ubuntu14:No matching security types
- ios-画图
- 有项目管理模板提供吗?(模板和管理工具对过程改进的帮助)
- android 编程规范
- 管理系统UI之四:使用全屏沉浸模式(Using Immersive Full-Screen Mode)