Lucene基于IKAnalyzer配置的词典扩充
2015-05-27 13:52
246 查看
在web项目的src目录下创建IKAnalyzer.cfg.xml文件,内容如下
注意:
1. use.dic的格式是无BOM 的UTF-8 编码的中文文本文件,文件扩展名不限。词典中,每个中文词汇独立占一行,使用\r\n 的DOS 方式换行。(注,如果您不了解什么是无BOM 的UTF-8 格式, 请保证您的词典使用UTF-8 存储,并在文件的头部添加一空行)。您可以参考分词器源码org.wltea.analyzer.dic 包下的.dic 文件。
2. use.dic文件应部署在src中。(推荐同IKAnalyzer.cfg.xml 放在一起).
3.IKAnalyzer.cfg.xml中路径的写法:前面不能加/,否则是绝对路径。
http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html http://blog.sina.com.cn/s/blog_4c9d7da201013wv2.html http://www.itzhai.com/ikanalyzer-lucene-demo-performance-test.html#read-more
<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> <properties> <comment>IK Analyzer 扩展配置</comment> <!-- 用户可以在这里配置自己的扩展字典 --> <entry key="ext_dict">use.dic.dic;googlepy.dic</entry> <!-- 用户可以在这里配置自己的扩展停止词字典 --> <entry key="ext_stopwords">dicdata/ext_stopword.dic</entry> </properties>
注意:
1. use.dic的格式是无BOM 的UTF-8 编码的中文文本文件,文件扩展名不限。词典中,每个中文词汇独立占一行,使用\r\n 的DOS 方式换行。(注,如果您不了解什么是无BOM 的UTF-8 格式, 请保证您的词典使用UTF-8 存储,并在文件的头部添加一空行)。您可以参考分词器源码org.wltea.analyzer.dic 包下的.dic 文件。
2. use.dic文件应部署在src中。(推荐同IKAnalyzer.cfg.xml 放在一起).
3.IKAnalyzer.cfg.xml中路径的写法:前面不能加/,否则是绝对路径。
http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html http://blog.sina.com.cn/s/blog_4c9d7da201013wv2.html http://www.itzhai.com/ikanalyzer-lucene-demo-performance-test.html#read-more
相关文章推荐
- Lucene-IKAnalyzer(中文分词)基于配置的词典扩充
- lucene配置IKanalyzer词典
- 构建基于词典的Lucene分析器
- IKAnalyzer 独立使用 配置扩展词典
- Lucene2.0中使用基于词典的中文分词器建立索引
- IKAnalyzer 独立使用 配置扩展词典
- 构建基于词典的Lucene分类器
- 构建基于词典的Lucene分析器
- Windows上基于solr配置IK(IKAnalyzer)分词器方法
- IKAnalyzer在Solr下扩充词典
- IKAnalyzer词典扩充
- Lucene—IKAnalyzer分词器配置扩充词典
- 近两年项目回顾系列——基于lucene+IKanalyzer实现全文检索
- 构建基于词典的Lucene分析器
- 构建基于词典的Lucene分析器
- IKAnalyzer 配置扩展词典
- IKAnalyzer 独立使用 配置扩展词典
- IKAnalyzer 基于Lucene4.2 的开发案例
- IKAnalyzer 基于Lucene4.2 的开发案例
- 基于lucene的java开发环境配置