在网上看到的关于es的querystring的问题,值得留意
2013-11-14 14:53
316 查看
问题
今天,我们的业务给我报了一个问题,说商品"视丽 花样系列美瞳"此品搜索不到,于是,我问业务要了搜索关键词和商品名称一样,发觉还真是搜索不到,遂排查问题,先给大家报告一下我的环境
【环境】
es的版本:0.90.2
中文分词:ansj
操作系统:CentOS6.5
【测试过程】
首先,我测试了分词接口,看分词器是否正常工作:
_analyze?text=视丽 花样系列美瞳彩片&analyzer=index_ansj
分词结果为:视、丽、花样、系列、美、美瞳、瞳、彩、彩片、片
_analyze?text=视丽 花样系列美瞳彩片&analyzer=query_ansj 分词结果为:视、丽、花样、系列、美瞳、彩片
纳尼,query_ansj分词完毕是index_ansj的子集啊!为嘛没有出现结果?(解释一下,美瞳和彩片这两个词是我加入的,但对问题没有影响)
于是,根据我的经验,我把视丽后面的空格去掉,query_ansj分词结果没有变化。
然后在query_string的"query"使用无空格的语句
{ "query_string": { "query": "视丽花样系列美瞳彩片", "default_field": "name", "default_operator": "and" } }商品华丽的出现了。
再把空格加上
{ "query_string": { "query": "视丽 花样系列美瞳彩片", "default_field": "name", "default_operator": "and" } }商品又没了
于是我猜想,难到是es的query_string先按空格分词了,再把结果调用分词器吗?(其实这样的问题发生过很多次了)
紧接着,再测
_analyze?text=花样系列美瞳彩片&analyzer=query_ansj 分词结果为:花样、系列、美瞳彩、片
好吧,不是index_ansj的子集了,目前,我认为是es的query_string先按空格分了词,再调用分词器导致了这个结果
于是,我尝试把词做为一个整体
{ "query_string": { "query": "\"视丽 花样系列美瞳彩片\"", "default_field": "name", "default_operator": "and" } } 带空格没有数据
{ "query_string": { "query": "\"视丽花样系列美瞳彩片\"", "default_field": "name", "default_operator": "and" } } 不带空格还是没有(汗,打滚,到底怎么回事!!)
难到引号不是这么用的?上单引号(json里单引号是合法的字符串)
{ "query_string": { "query": "'视丽 花样系列美瞳彩片'", "default_field": "name", "default_operator": "and" } }带空格依然没有数据
{ "query_string": { "query": "'视丽花样系列美瞳彩片'", "default_field": "name", "default_operator": "and" } } 不带空格有数据了
好吧,加不加单引号没什么变化。
到这里,问题出来了,es的query_string怎么样才能把"query"参数里的值做为一个整体?
接下来的思考,我尝试把美瞳和彩片加入到用户字典,但影响不大,
_analyze?text=花样系列美瞳彩片&analyzer=query_ansj 分词结果依然为:花样、系列、美瞳彩、片,注意到了吗?就是这个美瞳彩引发的血案。
脑袋里浮现出解决方案,1,索引和查询使用同一种分词器,2在ansj的歧义词典里加入歧义词
解决方案1:
{ "query_string": { "query": "视丽花样系列美瞳彩片", "default_field": "name", "default_operator": "and","analyzer":
"index_ansj" } }有结果
{ "query_string": { "query": "视丽 花样系列美瞳彩片", "default_field": "name", "default_operator": "and","analyzer":
"index_ansj" } }没有结果(纳尼?到底怎么了)
{ "query_string": { "query": "\"视丽花样系列美瞳彩片\"", "default_field": "name", "default_operator": "and","analyzer":
"index_ansj" } }有结果
{ "query_string": { "query": "\"视丽 花样系列美瞳彩片\"", "default_field": "name", "default_operator": "and","analyzer": "index_ansj" }
}有结果(到这我已经彻底凌乱了)
我又去试了下分词接口
_analyze?text=花样系列美瞳彩片&analyzer=index_ansj 分词结果为 :花样、系列、美、美瞳、美瞳彩、瞳、彩、彩片、片
原来这样分词也会出现美瞳彩
现在我困惑的是,假如\"可以做为一个完整的词,为什么query_string的"analyzer"为"query_ansj"的时候,并未出现结果,还有那个万恶的美瞳彩是肿么回事。最后用了方案2,加入了歧义词典美瞳彩片\t美瞳\tnr\t彩片\tv完美解决了问题。
以下是我的mapping配置及分词配置
name: {
type: string
index_analyzer: index_ansj
search_analyzer: query_ansj
}
index:
analysis:
analyzer:
index_ansj:
alias: [ansj_index_analyzer]
type: ansj_index
user_path: ansj/user
ambiguity: ansj/ambiguity.dic
stop_path: ansj/stopLibrary.dic
redis:
pool:
maxactive: 20
maxidle: 10
maxwait: 100
testonborrow: true
ip: publish.redis.master.yao.com:6379
channel: ansj_term
query_ansj:
alias: [ansj_query_analyzer]
type: ansj_query
user_path: ansj/user
ambiguity: ansj/ambiguity.dic
stop_path: ansj/stopLibrary.dic
redis:
pool:
maxactive: 20
maxidle: 10
maxwait: 100
testonborrow: true
ip: publish.redis.master.yao.com:6379
channel: ansj_term
ansj插件地址:https://github.com/4onni/elasticsearch-analysis-ansj
问题解答
其实,这个问题,不是ES的BUG,其实是分词器的问题吧,
视丽 花样系列美瞳彩片 分词没有出现“美瞳彩”,而花样系列美瞳彩片分词出现“美瞳彩”,最根本的问题出现在这里啊!
其实和有没有空格没有关系,query_string是会处理空格,3.5以前记着是处理为了and!但是这个的问题,我理解是分词器出现了问题!
其实你,default_operator": "or",应该会出来!
还有就是\"的问题,加\"不是说把内容当成整体处理,加\"的功能是,queyparse将会把其按照pharsequery处理,同时默认的slop为0,说白了会把\"\",内容分词后,按照term匹配,然后将所有term减slop为0的检索出来!
同时,我们以前用 lucene时,空格都是自己处理的,比如将”视丽 花样系列美瞳彩片“转化为”视丽 OR 花样系列美瞳彩片“
今天,我们的业务给我报了一个问题,说商品"视丽 花样系列美瞳"此品搜索不到,于是,我问业务要了搜索关键词和商品名称一样,发觉还真是搜索不到,遂排查问题,先给大家报告一下我的环境
【环境】
es的版本:0.90.2
中文分词:ansj
操作系统:CentOS6.5
【测试过程】
首先,我测试了分词接口,看分词器是否正常工作:
_analyze?text=视丽 花样系列美瞳彩片&analyzer=index_ansj
分词结果为:视、丽、花样、系列、美、美瞳、瞳、彩、彩片、片
_analyze?text=视丽 花样系列美瞳彩片&analyzer=query_ansj 分词结果为:视、丽、花样、系列、美瞳、彩片
纳尼,query_ansj分词完毕是index_ansj的子集啊!为嘛没有出现结果?(解释一下,美瞳和彩片这两个词是我加入的,但对问题没有影响)
于是,根据我的经验,我把视丽后面的空格去掉,query_ansj分词结果没有变化。
然后在query_string的"query"使用无空格的语句
{ "query_string": { "query": "视丽花样系列美瞳彩片", "default_field": "name", "default_operator": "and" } }商品华丽的出现了。
再把空格加上
{ "query_string": { "query": "视丽 花样系列美瞳彩片", "default_field": "name", "default_operator": "and" } }商品又没了
于是我猜想,难到是es的query_string先按空格分词了,再把结果调用分词器吗?(其实这样的问题发生过很多次了)
紧接着,再测
_analyze?text=花样系列美瞳彩片&analyzer=query_ansj 分词结果为:花样、系列、美瞳彩、片
好吧,不是index_ansj的子集了,目前,我认为是es的query_string先按空格分了词,再调用分词器导致了这个结果
于是,我尝试把词做为一个整体
{ "query_string": { "query": "\"视丽 花样系列美瞳彩片\"", "default_field": "name", "default_operator": "and" } } 带空格没有数据
{ "query_string": { "query": "\"视丽花样系列美瞳彩片\"", "default_field": "name", "default_operator": "and" } } 不带空格还是没有(汗,打滚,到底怎么回事!!)
难到引号不是这么用的?上单引号(json里单引号是合法的字符串)
{ "query_string": { "query": "'视丽 花样系列美瞳彩片'", "default_field": "name", "default_operator": "and" } }带空格依然没有数据
{ "query_string": { "query": "'视丽花样系列美瞳彩片'", "default_field": "name", "default_operator": "and" } } 不带空格有数据了
好吧,加不加单引号没什么变化。
到这里,问题出来了,es的query_string怎么样才能把"query"参数里的值做为一个整体?
接下来的思考,我尝试把美瞳和彩片加入到用户字典,但影响不大,
_analyze?text=花样系列美瞳彩片&analyzer=query_ansj 分词结果依然为:花样、系列、美瞳彩、片,注意到了吗?就是这个美瞳彩引发的血案。
脑袋里浮现出解决方案,1,索引和查询使用同一种分词器,2在ansj的歧义词典里加入歧义词
解决方案1:
{ "query_string": { "query": "视丽花样系列美瞳彩片", "default_field": "name", "default_operator": "and","analyzer":
"index_ansj" } }有结果
{ "query_string": { "query": "视丽 花样系列美瞳彩片", "default_field": "name", "default_operator": "and","analyzer":
"index_ansj" } }没有结果(纳尼?到底怎么了)
{ "query_string": { "query": "\"视丽花样系列美瞳彩片\"", "default_field": "name", "default_operator": "and","analyzer":
"index_ansj" } }有结果
{ "query_string": { "query": "\"视丽 花样系列美瞳彩片\"", "default_field": "name", "default_operator": "and","analyzer": "index_ansj" }
}有结果(到这我已经彻底凌乱了)
我又去试了下分词接口
_analyze?text=花样系列美瞳彩片&analyzer=index_ansj 分词结果为 :花样、系列、美、美瞳、美瞳彩、瞳、彩、彩片、片
原来这样分词也会出现美瞳彩
现在我困惑的是,假如\"可以做为一个完整的词,为什么query_string的"analyzer"为"query_ansj"的时候,并未出现结果,还有那个万恶的美瞳彩是肿么回事。最后用了方案2,加入了歧义词典美瞳彩片\t美瞳\tnr\t彩片\tv完美解决了问题。
以下是我的mapping配置及分词配置
name: {
type: string
index_analyzer: index_ansj
search_analyzer: query_ansj
}
index:
analysis:
analyzer:
index_ansj:
alias: [ansj_index_analyzer]
type: ansj_index
user_path: ansj/user
ambiguity: ansj/ambiguity.dic
stop_path: ansj/stopLibrary.dic
redis:
pool:
maxactive: 20
maxidle: 10
maxwait: 100
testonborrow: true
ip: publish.redis.master.yao.com:6379
channel: ansj_term
query_ansj:
alias: [ansj_query_analyzer]
type: ansj_query
user_path: ansj/user
ambiguity: ansj/ambiguity.dic
stop_path: ansj/stopLibrary.dic
redis:
pool:
maxactive: 20
maxidle: 10
maxwait: 100
testonborrow: true
ip: publish.redis.master.yao.com:6379
channel: ansj_term
ansj插件地址:https://github.com/4onni/elasticsearch-analysis-ansj
问题解答
其实,这个问题,不是ES的BUG,其实是分词器的问题吧,
视丽 花样系列美瞳彩片 分词没有出现“美瞳彩”,而花样系列美瞳彩片分词出现“美瞳彩”,最根本的问题出现在这里啊!
其实和有没有空格没有关系,query_string是会处理空格,3.5以前记着是处理为了and!但是这个的问题,我理解是分词器出现了问题!
其实你,default_operator": "or",应该会出来!
还有就是\"的问题,加\"不是说把内容当成整体处理,加\"的功能是,queyparse将会把其按照pharsequery处理,同时默认的slop为0,说白了会把\"\",内容分词后,按照term匹配,然后将所有term减slop为0的检索出来!
同时,我们以前用 lucene时,空格都是自己处理的,比如将”视丽 花样系列美瞳彩片“转化为”视丽 OR 花样系列美瞳彩片“
相关文章推荐
- 关于android屏幕适配的问题(drawable-xxxxxxxx,dp,sp,px等等),偶尔看到了android源码,关于dpi的区分的值
- 【异常】关于使用ES的RestHighLevel JavaAPI执行search操作时,参数的问题
- 关于网络爬虫httpUrlConn.getResponseCode()取不到值得问题
- 分享一篇网上看到的关于使用致远OA的逗比文章
- 关于radio标签和select标签如何向action传值得问题
- 在网上整理的关于打开相机和相册并设置成头像的问题
- 网上看到了一个关于黑客的练习方式
- 6.29在网上看到的关于魔戒掉入火山后的恶搞
- 网上看到的一篇DNS正向解析失败的问题解决方法
- 网上看到的asp中文传参乱码问题的解决方式 自定义一个urldcode
- 又看到一个不错的贴,关于一些postgresql的异常问题
- 在网上看到的值得借鉴的网站,记录下来
- 看到有人去面试Java碰到问static的问题,到网上找了几个类似的问题,特此记录
- 关于网上邻居的访问问题(网上邻居的工作原理)转
- 关于ThinkPHP中Session不能夸模块/控制器使用的问题-网上的答案我做个补充
- 解决关于centos6.x mysql远程链接的问题(网上大多都是错的,我这个亲测有效,阿里云服务器)
- 关于昨天在鸿鹄上面看到一个问题-(网络)检查你是不是高手??
- Android 关于显示键盘,布局错乱网上顶的问题
- 关于swftools软件的使用(另吐糟网上的一些人对中文问题的胡乱解决说法!!)
- 关于网上邻居"此工作组的服务器列表当前无法使用"问题.