您的位置：首页 > 其它

第四章solr配置IK中文分词

2017-11-26 18:59 603 查看

简介

本章节只讲述IK分词的配置方式，拼音分词在这里就不再累述

准备

solr7.1.0已经安装好并可以正常启动（请看：第一章solr安装）

IK分词器下载 http://files.cnblogs.com/files/wander1129/ikanalyzer-solr6.5.zip

拼音分词器下载 http://files.cnblogs.com/files/wander1129/ikanalyzer-solr6.5.zip

我的solr配置情况如下：

web启动使用tomcat

%TOMCAT%/webapps/solr

solr_home地址为:D:\mnt\solr_home

core地址为

D:\mnt\solr_home\new_core

IK分词配置

IK分文件组成：

ext.dic为扩展字典

stopword.dic为停止词字典

IKAnalyzer.cfg.xml为配置文件

solr-analyzer-ik-5.1.0.jar ik-analyzer-solr5-5.x.jar为分词jar包。

配置jar：解压后的两个jar丢到%TOMCAT%/webapps/solr/WEB-INF/lib下面

更改solr_home下的core配置

new_core\conf\managed-schema配置文件

<!-- 我添加的IK分词 -->
<fieldType name="text_ik" class="solr.TextField">
<analyzer type="index">
<tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory" useSmart="true"/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory" useSmart="true"/>
</analyzer>
</fieldType>

3 重启tomcat测试是否成功

如图，已经和其他fieldType的分词结果不同了，分词结果可以看到词组出现而不是单个字

注：fieldType类型text_ik为IK的分词类型

拼音分词配置

原理同上

1. 解压后的两个jar丢到%TOMCAT%/webapps/solr/WEB-INF/lib下面

2. pinyin分词器：更改new_core\conf\managed-schema配置文件，添加如下分词fieldType类型

<fieldType name="text_pinyin" class="solr.TextField" positionIncrementGap="0">
<analyzer type="index">
<tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory"/>
<filter class="com.shentong.search.analyzers.PinyinTransformTokenFilterFactory" minTermLenght="2" />
<filter class="com.shentong.search.analyzers.PinyinNGramTokenFilterFactory" minGram="1" maxGram="20" />
</analyzer>
<analyzer type="query">
<tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory"/>
<filter class="com.shentong.search.analyzers.PinyinTransformTokenFilterFactory" minTermLenght="2" />
<filter class="com.shentong.search.analyzers.PinyinNGramTokenFilterFactory" minGram="1" maxGram="20" />
</analyzer>
</fieldType>

3重启测试，这里就不粘贴了方法同上

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航