您的位置:首页 > 其它

solr配置中文分词器

2018-01-15 17:13 239 查看

1.配置中文分词器

        1.1如果没有配置好solr的,可以参考 solr整合tomca

          1.2 配置文件介绍: schema.xml,它是Solr数据表配置文件,它定义了加入索引的数据的数据类型的。主要包括FieldTypes、Fields和其他的一些缺省设置。位于solrhome\collection1\conf 如果不知道什么是solrhome,请参考

solr整合tomca

    2.fieldType 域类型定义:   

          2.1.FieldType子结点包括:name,class,positionIncrementGap等一些参数:

          2.2name:是这个FieldType的名称

         2.3.class:是Solr提供的包solr.TextField,solr.TextField 允许用户通过分析器来定制索引和查询,分析器包括一个分词(tokenizer)和多个过滤器(filter)

         2.4 positionIncrementGap:可选属性,定义在同一个文档中此类型数据的空白间隔,避免短语匹配错误,此值相当于Lucene的短语查询设置slop值,根据经验设置为100。

   3.field定义
3.1在field结点内定义具体的Field,filed定义包括name,type(为之前定义过的各种FieldType),indexed(是否被索引),stored(是否被储存),multiValued(是否存储多个值)等属性。

 4.使用IK中文分词器
4.1 官网下载 IK分词器  ik下载
        4.2 导入jar包到solr项目




      5.拷贝到tomcat中的solr项目web-inf/lib里 






6.找到solrhome文件夹下的schema.xml文件




7.在schema.xml中添加一个自定义的fieldType,使用中文分词器
<fieldtype name="text_ik" stored="false" indexed="true" class="solr.TextField" >
<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldtype>


然后我们在增加一个域,

<field name="title_ik" type="text_ik" indexed="true" stored="true" />
,保存schema,xml文件,重启tomcat

8.测试代码
    打开浏览器访问:http://localhost:8080/solr/



测试结果..........





内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: