您的位置:首页 > 其它

腾讯云搜纠错(QC)系统----用户的每一次错误搜索都能获得惊喜

2015-06-19 16:58 477 查看
1.QC简介

1.1QueryCorrection(QC)

QC顾名思义,就是将用户输入的错误检索串,进行模型计算,推测用户意图,发现能真正满足用户搜索需求的正确输入形式,并将正确结果展现给用户,从而帮助用户更快的找到所需的信息,最终满足查询的需求。

1.2QC形式

QC包含两种形式,一类是单词拼写错误,早期的英文串纠错就是通过字典进行单词正确性的纠错;第二类是上下文搭配不当引起的错误。在中文中不存在第一类的错字情况,只有字与字搭配的词条是否合理,或者一连串词条搭配能否组成一个通顺的句子,所以中文纠错主要解决的是上下文搭配问题。

1.3QC作用

召回


精度


直达区


1.4QC类型

错误类型
纠错示例
数字
2408->2048
英文
Fiappy->flappy
Whatasapp->whatsapp
拼音
Talang->踏浪
wangfei ->王菲
简拼
Zgr->中国人/张国荣
Xiaopg->小苹果
缺字
手机助->手机助手
倍爽->倍儿爽
多字
你是我的眼毛->你是我的眼
送情郎当红军->送郎当红军
换字
笨鸟学飞->笨鸟快飞
汉字拼音
朗朗->郎朗
草冒歌->草帽歌
模糊音
四面埋伏->十面埋伏
拼音+英文
2014zuixindj->2014最新dj
汉字+英文
江南st->江南style
汉字+拼音
情非得已tongs->情非得已童声
换序
老师对话->对话老师
宗雨林->雨宗林
形近字
许蒿精选->许嵩精选
中固话->中国话
关联
时间都去哪了 王铮->时间都去哪儿了 王铮亮
阿杜擦一点 ->阿杜差一点
Part纠错
非主流 dj背尽音乐 dj ->非主流 dj背景音乐 dj

2.腾讯云搜QC模块介绍

2.1通用QC

通用QC即网页QC,腾讯云搜默认提供通用QC功能。通用QC是在soso早期就形成的纠错服务,经历了若干同学的努力,纠错策略更加丰富,字典积累逐步完善,算法和流程也更加自动化,在评测对比中,和竞品持平或者略胜。



图表 1通用QC

2.1.2通用QC的优点

通用QC可以满足非特定领域知识的纠错,对比较常识性的错误进行纠正。如下举例:

错误类型



纠错示例

拼音



Talang->踏浪
wangfei ->王菲

汉字拼音

朗朗->郎朗
草冒歌->草帽歌

2.1.2通用QC的局限

在开发腾讯云搜纠错服务的调研过程中,发现网页QC并不能满足所有业务的需求,比如一些很有产品特色的名词,无法进行纠错:

错纠
shixiong
-> 师兄 (尸兄) [视频]
laobing
-> 烙饼 (老兵) [视频]
漏纠
罗绮
-> 罗琦
lqyjjl
-> 恋曲一九九零
老子今天不上班
-> 老子明天不上班
pround
foryou -> pround of you
变形记湖南卫视
->变形计 湖南卫视
过纠
cup
-> cpu [视频]
百分摔跤->百分摔角
[应用宝]

2.1.2通用QC体验地址

在以下地址可以体验寄出分词和通用QC服务http://yunsou.qq.com/search_experience.cgi

2.2高级QC

高级QC即垂搜QC,腾讯云搜高级QC是在通用QC服务的基础上,进行了二次开发,不同的业务进行了定制化的服务,包括在线策略、离线挖掘、干预等模块等。具体流程如下:



图表 2高级QC

2.2.1高级QC系统流程

纠错系统大致分为几个部分,包括数据筛选和去噪,索引构建,在线检索,对结果进行终判得到最终结果。可以归纳为三部分:离线数据处理,数据召回和排序终判。





2.2.2高级QC分层设计

逻辑上分为四个层次:
接入层
负责业务接入的接口;
决策层
对各个业务进行定制化的排序服务;各种计算插件;
召回层
数据索引构建;在线检索召回;
数据层
数据筛选和去噪;离线纠错对挖掘;运营指标统计和监控;在线反馈。


图表 3高级QC逻辑图

2.1.2高级QC体验地址

高级QC由于与业务直接关联,可以在QQ音乐搜索体验。

2.3两者的差异

高级QC

通用QC

意图

意图明确,用户需求大部分是具体的资源

意图发散,需要满足所有需求

模型

Log量少,百万级别(甚至没有);

可用于离线挖掘语料稀疏

Log量巨大,近3个月上亿的数据量

融合

多样:Top3,全纠, 提示,混插等

单一:Top3,全纠

客户端

无线占绝大比例

主要是Pc端

表格 1意图差异case

[应用宝] [原串] [音乐]


[应用宝] [原串] [视频]


[应用宝] [原串] [视频]




2.4.高级QC的优点

1.业务之间不耦合,各业务索引集群是独立的

2.更关注算法,不在业务上耗费精力

3.召回路由,策略算法可配置

4.小的业务可以不提供数据,也可以共享相关策略。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: