您的位置:首页 > 产品设计 > UI/UE

Determining the Unser Intent of Web Search Engine Queries

2010-11-09 10:10 405 查看
05年的一篇论文,那个时候的方法就是启发式。论文的题目《Determining the Unser Intent of Web Search Engine Queries》,翻译过来是《Web查询的用户意图识别》,作者是Jansen

摘要

用户意图识别由于查询的稀疏性变得非常的困难。本论文将通过大量的分析日志而抽取出每一个类别的启发式信息,并且最终得到一个自动分类器。结果显示,80%的查询都属于信息类,其他两类都相对比较小。

研究方面

首先是对每一个类别进行特征分离,分别抽取每个类别的特征信息。为了验证自动分类的效果,需要人工分类一大部分的日志。然后的一个研究就是在大规模日志上面的自动分类。

设计

对于第一步,我们需要分析大量的查询日志,然后抽取初每个类别的特征,这是一个迭代的过程“查询选择-分类-特征重定义”。对于第二个问题,将第一个问题中的特征用来分类大规模的日志。

结果

每个分类:

导航类:公司/商务/组织/人名 域名后缀 查询长度 查看第一个结果

事务类:包含了电影、歌曲、歌词、图像、笑话 包含了“获得、下载” ...

信息类:包含了“ways to”,“how to”,“what is”,自然语言,信息类词语

然后用于大规模的人工分类的日志进行检验,80%左右的查询都属于信息类,导航类和事务类比较少。分类的准确率70%左右。

这个文章中提到的“启发式”方法在最开始的研究中应该是很自然的想法,因为分析日志你就知道,很多的查询都是有一定的查询词在里面的。对于每个类别的查询,抽取一些共同的特征,能够得到准确率很高的分类器,但是缺点还是召回率非常低。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐