您的位置：首页 > 其它

数据挖掘的广告作弊行为分析

2015-08-19 14:52 387 查看

反作弊方法

反作弊方法

1 基于异常值分析的方法

1.1 基于统计学的异常值检测

含义：数据集若服从正态分布，与均值之间的偏差达到或超过3倍标准差，可以对点击率，转化率，对话时间差进行分析

缺点：只能检测单个变量值，每次检测只能局限于单个指标

1.2 基于距离和密度的异常值检测

优点：可以结合多指标进行分析

1.3 基于偏差的异常值检测

概念：通过检查数据的主要特征来确定异常对象。如果一个对象的特征过分偏离给定的数据特征，则是异常对象

主要方法：

1.OLAP数据立体方法：利用在大规模的多维数据中采用数据立方体确定反常区域，如果一个立方体的单元值明显不同于根据统计模型得到的期望值，该单元被认为是孤立点

2.点击流分析：发现不规则的点击过程，可以作为点击欺诈的怀疑对象

2 基于规则的识别方法

2.1 同一IP的用户单日点击次数超过多少即可视为作弊

2.2 某个广告位的点击率突然大幅增加可能存在作弊

3 基于分类的方法

概念：根据数据挖掘分类算法对历史数据进行模拟，通过构建分类器来对点击行为进行预测

缺点： 1.需要事先对历史点击行为进行分类，即标注出作弊的数据 2.对数据的完整性和质量要求较高

名词解释

跳出率：

1.定义：指进入某一网站之后不再继续浏览，而直接离开网站的访客比例

2.意义：跳出率越高，网站的粘性就越低

二跳：

1.定义：当网站页面展开后，用户在页面上产生的首次点击被称为“二跳”，二跳的次数即为二跳量，二跳率＝二跳量／浏览量。

2.意义：二跳率越高，网站的粘性越高

八月 19, 2015.

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航