腾讯云搜纠错(QC)系统----用户的每一次错误搜索都能获得惊喜
2015-06-19 16:58
477 查看
1.QC简介
图表 1通用QC
图表 2高级QC
逻辑上分为四个层次:
图表 3高级QC逻辑图
表格 1意图差异case
1.业务之间不耦合,各业务索引集群是独立的
2.更关注算法,不在业务上耗费精力
3.召回路由,策略算法可配置
4.小的业务可以不提供数据,也可以共享相关策略。
1.1QueryCorrection(QC)
QC顾名思义,就是将用户输入的错误检索串,进行模型计算,推测用户意图,发现能真正满足用户搜索需求的正确输入形式,并将正确结果展现给用户,从而帮助用户更快的找到所需的信息,最终满足查询的需求。1.2QC形式
QC包含两种形式,一类是单词拼写错误,早期的英文串纠错就是通过字典进行单词正确性的纠错;第二类是上下文搭配不当引起的错误。在中文中不存在第一类的错字情况,只有字与字搭配的词条是否合理,或者一连串词条搭配能否组成一个通顺的句子,所以中文纠错主要解决的是上下文搭配问题。1.3QC作用
召回 | |
精度 | |
直达区 |
1.4QC类型
错误类型 | 纠错示例 |
数字 | 2408->2048 |
英文 | Fiappy->flappy Whatasapp->whatsapp |
拼音 | Talang->踏浪 wangfei ->王菲 |
简拼 | Zgr->中国人/张国荣 Xiaopg->小苹果 |
缺字 | 手机助->手机助手 倍爽->倍儿爽 |
多字 | 你是我的眼毛->你是我的眼 送情郎当红军->送郎当红军 |
换字 | 笨鸟学飞->笨鸟快飞 |
汉字拼音 | 朗朗->郎朗 草冒歌->草帽歌 |
模糊音 | 四面埋伏->十面埋伏 |
拼音+英文 | 2014zuixindj->2014最新dj |
汉字+英文 | 江南st->江南style |
汉字+拼音 | 情非得已tongs->情非得已童声 |
换序 | 老师对话->对话老师 宗雨林->雨宗林 |
形近字 | 许蒿精选->许嵩精选 中固话->中国话 |
关联 | 时间都去哪了 王铮->时间都去哪儿了 王铮亮 阿杜擦一点 ->阿杜差一点 |
Part纠错 | 非主流 dj背尽音乐 dj ->非主流 dj背景音乐 dj |
2.腾讯云搜QC模块介绍
2.1通用QC
通用QC即网页QC,腾讯云搜默认提供通用QC功能。通用QC是在soso早期就形成的纠错服务,经历了若干同学的努力,纠错策略更加丰富,字典积累逐步完善,算法和流程也更加自动化,在评测对比中,和竞品持平或者略胜。图表 1通用QC
2.1.2通用QC的优点
通用QC可以满足非特定领域知识的纠错,对比较常识性的错误进行纠正。如下举例:错误类型 | 纠错示例 |
拼音 | Talang->踏浪 wangfei ->王菲 |
汉字拼音 | 朗朗->郎朗 草冒歌->草帽歌 |
2.1.2通用QC的局限
在开发腾讯云搜纠错服务的调研过程中,发现网页QC并不能满足所有业务的需求,比如一些很有产品特色的名词,无法进行纠错:错纠 | shixiong -> 师兄 (尸兄) [视频] laobing -> 烙饼 (老兵) [视频] |
漏纠 | 罗绮 -> 罗琦 lqyjjl -> 恋曲一九九零 老子今天不上班 -> 老子明天不上班 pround foryou -> pround of you 变形记湖南卫视 ->变形计 湖南卫视 |
过纠 | cup -> cpu [视频] 百分摔跤->百分摔角 [应用宝] |
2.1.2通用QC体验地址
在以下地址可以体验寄出分词和通用QC服务http://yunsou.qq.com/search_experience.cgi2.2高级QC
高级QC即垂搜QC,腾讯云搜高级QC是在通用QC服务的基础上,进行了二次开发,不同的业务进行了定制化的服务,包括在线策略、离线挖掘、干预等模块等。具体流程如下:图表 2高级QC
2.2.1高级QC系统流程
纠错系统大致分为几个部分,包括数据筛选和去噪,索引构建,在线检索,对结果进行终判得到最终结果。可以归纳为三部分:离线数据处理,数据召回和排序终判。
2.2.2高级QC分层设计
逻辑上分为四个层次:接入层 | 负责业务接入的接口; |
决策层 | 对各个业务进行定制化的排序服务;各种计算插件; |
召回层 | 数据索引构建;在线检索召回; |
数据层 | 数据筛选和去噪;离线纠错对挖掘;运营指标统计和监控;在线反馈。 |
图表 3高级QC逻辑图
2.1.2高级QC体验地址
高级QC由于与业务直接关联,可以在QQ音乐搜索体验。2.3两者的差异
高级QC | 通用QC | |
意图 | 意图明确,用户需求大部分是具体的资源 | 意图发散,需要满足所有需求 |
模型 | Log量少,百万级别(甚至没有);可用于离线挖掘语料稀疏 | Log量巨大,近3个月上亿的数据量 |
融合 | 多样:Top3,全纠, 提示,混插等 | 单一:Top3,全纠 |
客户端 | 无线占绝大比例 | 主要是Pc端 |
[应用宝] [原串] [音乐] | |
[应用宝] [原串] [视频] | |
[应用宝] [原串] [视频] |
2.4.高级QC的优点
1.业务之间不耦合,各业务索引集群是独立的2.更关注算法,不在业务上耗费精力
3.召回路由,策略算法可配置
4.小的业务可以不提供数据,也可以共享相关策略。
相关文章推荐
- OJ积累--商品销售
- 查看树莓派的CPU温度
- Android的第二次增加SurfaceView基本使用
- JAVA 安全性转码代码(包括sql注入,跨站脚本)
- 解决gnuplot中'Terminal type set to 'unknown'不能显示绘图的问题
- COPRA RF 2005 SR1最新版 (冷弯成型,轧辊设计)
- 自适应屏幕大小的网页是怎么做出来的
- Rhel6.5_Nginx1.45_Php5.59_MySQL5.6.16编译安装(集成LNMP环境)
- 获取日志$6到$NF的字段
- Android Choreographer 源码笔记
- Android Studio开发JNI工程
- 使用向量的方法计算点到直线的距离
- 一步步走进Android MaterialDesign 之 DrawerLayout
- How to install ipsec-tools on RHEL6
- bat批量目光声明
- 【Training versus Testing】林轩田机器学习基石
- 114 Flatten Binary Tree to Linked List 二叉树到单链表的扁平化处理
- IOS prepareForSegue 多窗口切换学习
- 如何编译&使用boost库?
- 好久没更新了,对这段时间做个总结