solr4.7中文分词器(ik-analyzer)配置
2014-03-15 17:00
260 查看
solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器。
一、版本信息
solr版本:4.7.0
需要ik-analyzer版本:IK Analyzer 2012FF_hf1
ik-analyzer下载地址:http://code.google.com/p/ik-analyzer/downloads/list
二、配置步骤
下载压缩解压后得到如下目录结构的文件夹:
我们把IKAnalyzer2012FF_u1.jar拷贝到solr服务的solr\WEB-INF\lib下面。
我们把IKAnalyzer.cfg.xml、stopword.dic拷贝到需要使用分词器的core的conf下面,和core的schema.xml文件一个目录。
修改core的schema.xml,在<types></types>配置项间加一段如下配置:
我们在这个core的schema.xml里面配置field类型的时候就可以使用text_ik了。
三、中文分词测试
一、版本信息
solr版本:4.7.0
需要ik-analyzer版本:IK Analyzer 2012FF_hf1
ik-analyzer下载地址:http://code.google.com/p/ik-analyzer/downloads/list
二、配置步骤
下载压缩解压后得到如下目录结构的文件夹:
我们把IKAnalyzer2012FF_u1.jar拷贝到solr服务的solr\WEB-INF\lib下面。
我们把IKAnalyzer.cfg.xml、stopword.dic拷贝到需要使用分词器的core的conf下面,和core的schema.xml文件一个目录。
修改core的schema.xml,在<types></types>配置项间加一段如下配置:
<fieldType name="text_ik" class="solr.TextField"> <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/> </fieldType>我们就多了一种text_ik的field类型了,该类型使用的分词器就是ik-analyzer。
我们在这个core的schema.xml里面配置field类型的时候就可以使用text_ik了。
<field name="name" type="text_ik" indexed="true" stored="true" multiValued="false" />
三、中文分词测试
IKT text raw_bytes start end type position 中华人民共和国 [e4 b8 ad e5 8d 8e e4 ba ba e6 b0 91 e5 85 b1 e5 92 8c e5 9b bd] 0 7 CN_WORD 1 中华人民 [e4 b8 ad e5 8d 8e e4 ba ba e6 b0 91] 0 4 CN_WORD 2 中华 [e4 b8 ad e5 8d 8e] 0 2 CN_WORD 3 华人 [e5 8d 8e e4 ba ba] 1 3 CN_WORD 4 人民共和国 [e4 ba ba e6 b0 91 e5 85 b1 e5 92 8c e5 9b bd] 2 7 CN_WORD 5 人民 [e4 ba ba e6 b0 91] 2 4 CN_WORD 6 共和国 [e5 85 b1 e5 92 8c e5 9b bd] 4 7 CN_WORD 7 共和 [e5 85 b1 e5 92 8c] 4 6 CN_WORD 8 国 [e5 9b bd] 6 7 CN_CHAR 9
相关文章推荐
- 在Eclipse中运行Solr 基础知识
- Solr基础--设置solr/home的三种方式
- solr4.0安装和简单导入mysql数据
- Solr 4.0 基础教程
- lucene solr在tomcat中的配置
- nutch1.4 部署应用
- 部署solr建立nutch索引
- 30分钟搭建一个百万全文搜索
- 在Tomcat中部署solr
- Solr之what & why
- Solr之How之粉墨登场
- linux下resin+solr
- Solr1.4安装配置
- 搜索引擎Nutch1.4+solr1.4整合(成功)
- 全文搜索服务器solr之客户端 - solrj二次开发
- 3月8号
- 3月9日
- 关键词优化之自架搜索引擎篇
- solr导入数据
- 博客园中的日志进行一个转移