您的位置：首页 > 产品设计 > UI/UE

Determining the Unser Intent of Web Search Engine Queries

2010-11-09 10:10 405 查看

05年的一篇论文，那个时候的方法就是启发式。论文的题目《Determining the Unser Intent of Web Search Engine Queries》，翻译过来是《Web查询的用户意图识别》，作者是Jansen。

摘要

用户意图识别由于查询的稀疏性变得非常的困难。本论文将通过大量的分析日志而抽取出每一个类别的启发式信息，并且最终得到一个自动分类器。结果显示，80%的查询都属于信息类，其他两类都相对比较小。

研究方面

首先是对每一个类别进行特征分离，分别抽取每个类别的特征信息。为了验证自动分类的效果，需要人工分类一大部分的日志。然后的一个研究就是在大规模日志上面的自动分类。

设计

对于第一步，我们需要分析大量的查询日志，然后抽取初每个类别的特征，这是一个迭代的过程“查询选择－分类－特征重定义”。对于第二个问题，将第一个问题中的特征用来分类大规模的日志。

结果

每个分类：

导航类：公司/商务/组织/人名域名后缀查询长度查看第一个结果

事务类：包含了电影、歌曲、歌词、图像、笑话包含了“获得、下载” ...

信息类：包含了“ways to”，“how to”，“what is”，自然语言，信息类词语

然后用于大规模的人工分类的日志进行检验，80%左右的查询都属于信息类，导航类和事务类比较少。分类的准确率70%左右。

这个文章中提到的“启发式”方法在最开始的研究中应该是很自然的想法，因为分析日志你就知道，很多的查询都是有一定的查询词在里面的。对于每个类别的查询，抽取一些共同的特征，能够得到准确率很高的分类器，但是缺点还是召回率非常低。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航