Automatic Search Engine Performance Evaluation with Click-through Data Analysis
2010-11-11 09:59
696 查看
今天在搜狗实验室的主页上面浏览资源的时候看到的一篇论文,和查询意图分类有一些相似,但是这也是意图分类的一个很神奇的应用:搜索引擎性能的自动评测。论文题目《Automatic Search Engine Performance Evaluation with Click-through Data Analysis》,翻译过来是《基于点击信息的搜索引擎性能自动评测》,作者是Yiqun Liu。
这篇论文从“评价搜索引擎”的角度出发,利用查询意图分类中的导航类分类准确率高的特点,来进行答案的自动标注。
摘要
搜索引擎研究中一个很重要的话题就是性能的评价。传统的评价方法更多的依赖于人工的努力,所以常常是很耗时的。通过点击数据的分析,我们提出了一个自动性能评价的方法。该方法产生“导航类”查询和其答案。最后的试验基于大规模的日志,并和传统的评价进行对比。基于点击信息的评测
搜索引擎在评测时通常都是看他在面对不同信息需求时的有效性。我们的注意力集中在导航类查询,原因:用户有这个需求、只有一个标准答案。特征抽取和导航类查询选择
本论文的作者以前的一篇论文中,我已经说过了,也就是“通过点击信息来意图分类”中。准确率能够达到80%以上,所以在这里用来区分导航类和其他的类别。自动答案标注
点击的分布是一个很有用的特征,定义为:CD( q ) = ( session of q that involves clicks on Rmost ) / ( session of q )。对于导航类的查询q,Rmost被定义为被最多人点击的答案。提供了一种用点击信息对查询目标的结果进行标注的可能。也就是对于所有的结果,用上面的公式找到最大值的一个R。实验结果
首先是答案的自动标注答案实验,准确率达到了96%以上,准确率的评定是人工的。然后是测试性能,主要是比较传统的测试和本方法是否结果一样的问题。论文采用的是MRR距离,结果显示两种评测方式结果都是一致的。这里的MRR是Mean Reciprocal Rank的意思,其实很简单。比如搜索引擎的结果通常会按照相关度进行排序,假设正确答案排在了第k位,那么RR就是1 / k,这里的再对所有的查询取均值即可。这里也可以看出为什么一定要用导航类,因为导航类通常都是只有一个结果,MRR正好适合使用。这样的话评测需要大量的标注了准确答案的评测,所以就引出了自动答案标注的算反。所以再查询意图分类中的导航类分类方法被用出来。这篇论文从“评价搜索引擎”的角度出发,利用查询意图分类中的导航类分类准确率高的特点,来进行答案的自动标注。
相关文章推荐
- Learning Deep Structured Semantic Models for Web Search using Clickthrough Data笔记
- [论文笔记]Learning Deep Structured Semantic Models for Web Search using Clickthrough Data
- 微软的一篇ctr预估的论文:Web-Scale Bayesian Click-Through Rate Prediction for Sponsored Search Advertising in Microsoft’s Bing Search Engine。
- 【点击模型学习笔记】Inferring clickthrough rates on ads from click behavior on search results_wsdm2011
- Advanced SQL Server Monitor with Performance Graph, Analysis and Version Control
- crawler with data analysis (Hadoop, MapReduce, HBase) - Phase I - Data Modeling
- jqgridSingleDeleteButtonClick、jqgridSearchButtonClick、jqgridGetRowData......
- #One paper per week# Search Engine Click Spam Detection Based on Bipartite Graph Propagation
- An Ontology Search Engine Based on Semantic Analysis
- 用Python和OpenCV创建一个图片搜索引擎的完整指南 The complete guide to building an image search engine with Python and
- crawler with data analysis (Hadoop, MapReduce, HBase) - Phase I - Data Modeling
- Mining Twitter Data with Python Part 6: Sentiment Analysis Basics
- Data analysis example with ggplot and dplyr (analyzing ‘supercar’ data, part 2)
- Create Your Own Search Engine with Python
- Search Engine Optimization -Building Traffic and Making Money with SEO
- Create a nice looking chart with CL_GUI_CHART_ENGINE - Part 3 - Chart Data and render
- Queueing Networks and Markov Chains : Modeling and Performance Evaluation with Computer Science Appl
- Create Your Own Search Engine with Python 用python创建你自己的搜索引擎(二)
- 笔试算法题(58):二分查找树性能分析(Binary Search Tree Performance Analysis)
- What’s a Good Clickthrough Rate? New Benchmark Data for Google AdWords