29_ElasticSearchIK中文分词器的安装和使用
2018-03-27 07:49
302 查看
29_ElasticSearchIK中文分词器的安装和使用
更多干货
分布式实战(干货)spring cloud 实战(干货)
mybatis 实战(干货)
spring boot 实战(干货)
React 入门实战(干货)
构建中小型互联网企业架构(干货)
python 学习持续更新
ElasticSearch 笔记
一、概述
在搜索引擎领域,比较成熟和流行的,就是ik分词器对于“中国人很喜欢吃油条” 。使用不同的分词器会进行下面的不同的拆分standard:中 国 人 很 喜 欢 吃 油 条 ik:中国人 很 喜欢 吃 油条
二、安装
1、在elasticsearch中安装ik中文分词器1、git clone https://github.com/medcl/elasticsearch-analysis-ik2、git checkout tags/v5.2.0
3、mvn package
4、将target/releases/elasticsearch-analysis-ik-5.2.0.zip拷贝到es/plugins/ik目录下
5、在es/plugins/ik下对elasticsearch-analysis-ik-5.2.0.zip进行解压缩
6、重启es
三、ik分词器基础知识
两种analyzer,你根据自己的需要自己选吧,但是一般是选用ik_max_wordik_max_word: 会将文本做最细粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”,会穷尽各种可能的组合;
ik_smart: 会做最粗粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”。
四、ik分词器的使用
PUT /my_index { "mappings": { "my_type": { "properties": { "text": { "type": "text", "analyzer": "ik_max_word" } } } } }例子:
POST /my_index/my_type/_bulk { "index": { "_id": "1"} } { "text": "男子偷上万元发红包,被抓获时仍然单身" } { "index": { "_id": "2"} } { "text": "16岁为结婚“变”22岁7年后想离婚被法院拒绝" } { "index": { "_id": "3"} } { "text": "深圳女孩骑车逆行撞奔驰 遭索赔被吓哭" } { "index": { "_id": "4"} } { "text": "对护肤品比对男票好" } { "index": { "_id": "5"} } { "text": "为什么国内的街道招牌用的都是红黄配" }
GET /my_index/_analyze { "text": "上万元发红包", "analyzer": "ik_max_word" }
GET /my_index/my_type/_search { "query": { "match": { "text": "结婚好还是单身好" } } }
相关文章
ElasticSearch 笔记1_ElasticSearch使用term filter来搜索数据
2_ElasticSearch filter执行原理 bitset机制与caching机制
3_ElasticSearch 基于bool组合多个filter条件来搜索数据
4_ElasticSearch 使用terms搜索多个值
5_ElasticSearch 基于range filter来进行范围过滤
6_ElasticSearch 控制全文检索结果的精准度
7_ElasticSearch term+bool实现的multiword搜索原理
8_基于boost的搜索条件权重控制
9_ElasticSearch 多shard场景下relevance score不准确
10_ElasticSearch dis_max实现best fields策略进行多字段搜索
11_ElasticSearch 基于tie_breaker参数优化dis_max搜索效果
12_ElasticSearch multi_match语法实现dis_max+tie_breaker
13_ElasticSearch multi_match+most fiels策略进行multi-field搜索
14_ElasticSearch 使用most_fields策略进行cross-fields search
15_ElasticSearch copy_to定制组合field进行cross-fields搜索
16_ElasticSearch 使用原生cross-fiels 查询
17_ElasticSearch phrase matching搜索
18_ElasticSearch 基于slop参数实现近似匹配
19_ElasticSearch 使用match和近似匹配实现召回率与精准度的平衡
20_ElasticSearch rescoring机制优化近似匹配搜索的性能
21_ElasticSearch 前缀搜索、通配符搜索、正则搜索
22_ElasticSearch 搜索推荐match_phrase_prefix实现search-time
23_ElsaticSearch 搜索推荐ngram分词机制实现index-time更多干货
24_ElasticSearch TF&IDF算法以及向量空间模型
25_ElasticSearch 揭秘lucene的相关度分数算法
26_ElasticSearch 四种常见的相关度分数优化方法
27_ElasticSearch用function_score自定义相关度分数算法
28_ElasticSearch误拼写时的fuzzy模糊搜索技术
日志管理ELK
相关文章推荐
- elasticsearch ik中文分词器的安装配置使用
- elasticsearch ik中文分词器的使用详解
- solr 7+tomcat 8 + mysql实现solr 7基本使用(安装、集成中文分词器、定时同步数据库数据以及项目集成)
- elasticsearch ik pingyin 分词器的安装和使用
- solr 的安装与使用、中文分词器的配置
- Ubuntu 英文状态下,安装使用中文输入法
- [导入]Paoding中文分词器使用总结(Lucene)
- 【转载】虚拟机VMware Workstation安装与使用的一点总结,VMwarews6.0.2完美中文绿色精简版下载!
- 网络监控-iptraf安装配置使用中文文档 ZT
- zhcon中文控制台的安装和使用
- Vmware6.0虚拟机中文绿色版[安装使用完全指南]
- Linux上安装7zip使用教程及zip中文文件名解压乱码解决方法。
- linux版本之redhat9------终端中文软件zhcon0.2.6的安装及使用
- AWStats简介:Apache/Windows IIS的日志分析工具的下载,安装,配置样例和使用(含6.9中文定义补丁)
- AWStats简介:Apache/Windows IIS的日志分析工具的下载,安装,配置样例和使用(含6.9中文定义补丁)
- Ubuntu10.04 安装英文版后如何使用中文输入法
- Vmware6.0虚拟机中文绿色版[安装使用完全指南] 推荐
- Ubutun安装netbeans解决中文乱码问题, 使用subversion做版本控制, 使用fcitx输入法
- 安装使用Eclipse中文语言包 zz