您的位置：首页 > 其它

Lucene基于IKAnalyzer配置的词典扩充

2015-05-27 13:52 246 查看

在web项目的src目录下创建IKAnalyzer.cfg.xml文件,内容如下

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>

<comment>IK Analyzer 扩展配置</comment>
<!-- 用户可以在这里配置自己的扩展字典 -->
<entry key="ext_dict">use.dic.dic;googlepy.dic</entry>
<!-- 用户可以在这里配置自己的扩展停止词字典    -->
<entry key="ext_stopwords">dicdata/ext_stopword.dic</entry>

</properties>

注意：

1. use.dic的格式是无BOM 的UTF-8 编码的中文文本文件，文件扩展名不限。词典中，每个中文词汇独立占一行，使用\r\n 的DOS 方式换行。（注，如果您不了解什么是无BOM 的UTF-8 格式，请保证您的词典使用UTF-8 存储，并在文件的头部添加一空行）。您可以参考分词器源码org.wltea.analyzer.dic 包下的.dic 文件。

2. use.dic文件应部署在src中。（推荐同IKAnalyzer.cfg.xml 放在一起）.

3.IKAnalyzer.cfg.xml中路径的写法：前面不能加/，否则是绝对路径。
http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html http://blog.sina.com.cn/s/blog_4c9d7da201013wv2.html http://www.itzhai.com/ikanalyzer-lucene-demo-performance-test.html#read-more

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航