ElasticSearch速学 - IK中文分词器远程字典设置
2017-05-02 15:34
1776 查看
前面已经对”IK中文分词器“有了简单的了解:
![](https://oscdn.geek-share.com/Uploads/Images/Content/202011/10/dcb35b7d280745b535310a6362a3cd0d)
但是可以发现不是对所有的词都能很好的区分,比如:
![](https://oscdn.geek-share.com/Uploads/Images/Content/202011/10/f316b8ddca6ec1873a6b86621ff9e5cd)
https://github.com/medcl/elasticsearch-analysis-ik
![](https://oscdn.geek-share.com/Uploads/Images/Content/202011/10/ccf7365204f9ef0c083247ebbee05539)
修改我们es实例中ik插件的配置:
![](https://oscdn.geek-share.com/Uploads/Images/Content/202011/10/2e53d5248a974e9b6e373213d31b9f26)
这些词库都是本地词库。可以参考配置文档来设置。
https://github.com/medcl/elasticsearch-analysis-ik
![](https://oscdn.geek-share.com/Uploads/Images/Content/202011/10/5012e27143516fdf2e5a8927e28b7e40)
我们来配置一下:
内容:
myDict.php:
但是可以发现不是对所有的词都能很好的区分,比如:
逼格这个词就没有分出来。
词库
实际上IK分词器也是根据一些词库来进行分词的,我们可以丰富这个词库。
IK分词器(IK Analysis for Elasticsearch)给了我们一个基本的配置:
https://github.com/medcl/elasticsearch-analysis-ik
修改我们es实例中ik插件的配置:
cd elasticsearch-5.3.0/plugins/ik/config/
main.dic是住词库,
stopword是停用词库(把一些错误的分词加入进来,之后不会再被分词了);
custom目录中是我们的自定义词库。
这些词库都是本地词库。可以参考配置文档来设置。
热更新 IK 分词使用方法
官方文档:https://github.com/medcl/elasticsearch-analysis-ik
我们来配置一下:
#进入es实例找到ik插件的配置文件 elasticsearch-5.3.0/plugins/ik/config #编辑配置文件 vi IKAnalyzer.cfg.xml
内容:
<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> <properties> <comment>IK Analyzer 扩展配置</comment> <!--用户可以在这里配置自己的扩展字典 --> <entry key="ext_dict">custom/mydict.dic;custom/single_word_low_freq.dic</entry> <!--用户可以在这里配置自己的扩展停止词字典--> <entry key="ext_stopwords">custom/ext_stopword.dic</entry> <!--用户可以在这里配置远程扩展字典 --> <entry key="remote_ext_dict">http://10.211.55.13/myDict.php</entry> <!--用户可以在这里配置远程扩展停止词字典--> <!-- <entry key="remote_ext_stopwords">words_location</entry> --> </properties>
myDict.php:
<?php header('Last-Modified: '.gmdate('D, d M Y H:i:s', $time).' GMT'); echo "逼格\n";
相关文章推荐
- elasticsearch插件安装之--中文分词器 ik 安装
- Elasticsearch 中文分词器 IK 配置和使用
- Elasticsearch之中文分词器插件es-ik(博主推荐)
- Elasticsearch之中文分词器插件es-ik的自定义热更新词库
- ElasticSearch学习 - (八)安装中文分词器IK和拼音分词器
- 【自定义IK词典】Elasticsearch之中文分词器插件es-ik的自定义词库
- Elasticsearch 中文分词器 IK 配置和使用
- ElasticSearch速学 - IK中文分词器 、elasticdump数据导出导入、字段分词
- Elasticsearch 中文分词器 IK 配置和使用
- Elasticsearch的ik中文分词器的安装
- Elasticsearch下安装IK中文分词器
- Elasticsearch集成中文分词器ik
- Elasticsearch之中文分词器插件es-ik的自定义词库
- Elasticsearch 中文分词器 IK 配置和使用
- elasticsearch-2.1.1 安装中文分词器 elasticsearch-analysis-ik
- ElasticSearch学习教程(三)-中文分词器IK
- Elasticsearch之中文分词器插件es-ik的自定义词库
- elasticsearch安装中文插件ik
- Elasticsearch中文分词插件ik的安装
- ElasticSearch增加ik中文分词插件