和solr的N天N夜(二)--加入中文分词器
2016-03-17 14:59
417 查看
因为solr本身对中文的分词效果较差,所有需要集成第三方的中文分词器。针对Solr的分词器比较多,其中最常用的的两个是mmseg4j和ik-analyzer。在这里,我选用的是mmseg4j。
3:重启tomcat服务器,并测试
1:导入对应的jar包:
下载mmseg4j-solr-2.3.1-SNAPSHOT.jar、mmseg4j-core-1.10.1-SNAPSHOT.jar两个jar包之后,拷贝到solr工程的lib目录下。2:配置schema.xml
<span style="font-size:14px;"> <span style="font-weight: normal;"> <!-- mmseg4j中文分词器配置,配置filedType类型名称--> <fieldtype name="textComplex" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/> </analyzer> </fieldtype> <fieldtype name="textMaxWord" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" /> </analyzer> </fieldtype> <fieldtype name="textSimple" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="n:/custom/path/to/my_dic" /> </analyzer> </fieldtype></span></span>
mmseg4j提供了三种类型的分词器,具体类型查看其它文档即可。
在配置了fieldType之后,就可以在schema.xml中配置field中配置需要查询的中文字段。<!--iamge_info表字段--> <field name="src" type="string" indexed="true" stored="true"/> <!--<field name="key_info" type="string" indexed="true" stored="true"/>--> <field name="key_info" type="textMaxWord" indexed="true" stored="true"/> <field name="update_date" type="date" indexed="true" stored="true"/>
3:重启tomcat服务器,并测试
相关文章推荐
- 我是运营,我没有假期
- 搜狗百度360市值齐跌:搜索引擎们陷入集体焦虑?
- 本人即将筹备败家日志,敬请期待!
- IE:使用搜索助手
- DB2数据库的安装
- C#实现把指定数据写入串口
- “传奇”图象数据存储方式
- PostgreSQL教程(八):索引详解
- Oracle外键不加索引引起死锁示例
- oracle 索引的相关介绍(创建、简介、技巧、怎样查看) .
- 修复mysql数据库
- 用SQL建立索引的方法步骤
- SQL效率提升之一些SQL编写建议并有效利用索引
- SQLSERVER的非聚集索引结构深度理解
- SQL Server误区30日谈 第8天 有关对索引进行在线操作的误区
- SQL Server 索引介绍
- 浅析SQL数据操作语句
- SQLServer 数据导入导出的几种方法小结
- SqlServer 索引自动优化工具
- MySQL数据备份之mysqldump的使用详解