您的位置：首页 > 编程语言

[笔记]CTR预估中的贝叶斯平滑方法及其代码实现

2017-02-13 15:59 405 查看

1. 背景介绍

广告形式：
互联网广告可以分为以下三种：
1）展示广告（display ad）
2）搜索广告（sponsored search ad）
3）上下文广告（contextual ad）

竞价模式：
对于在线广告，主要有以下几种竞价模式：
1）pay-per-impression（按展示付费）：广告商按照广告被展示的次数付费，这是一种最普遍的竞价模型。缺点在于没有考虑投放广告的效果。
2）pay-per-action（按行为付费）：只有在广告产生了销售或者类似的一些转化时，广告商才付费。缺点在于追踪用户的交易行为相对比较困难。
3）pay-per-click（按用户点击付费）：根据用户是否会点击广告来付费。这时候就需要对广告的点击率（CTR）进行精确的预估。

遇到的困难：
由于数据的稀疏性，对广告进行CTR预估是比较具有挑战性的，预估出来的CTR的可靠性不高，且具有较大的方差。主要有以下两类场景：
1）当广告的展示次数较少的时候，对其直接进行CTR的统计计算会导致一个偏高的结果。比如某个广告只展示了1次，被点击了1次，则纯粹的统计CTR=1.0，这显然是过分高估了。
2）当广告的展示次数很大，但点击次数很少或几乎没有的时候，对其直接进行CTR的统计计算会导致一个偏低的结果。比如某个广告没有被点击过，则纯粹的统计CTR=0.0，这显然是过分低估了。

2. 数据的层级结构

在许多场景下，数据是很自然地存在层级结构，或者可以通过数据的聚类的方式得到层级结构的。如下图所示，是雅虎网站的网页层级结构示意图：

我们假设事件的发生并不是相互独立的，相反，在层级结构中相对比较靠近的两个事件的相关性要大于距离较远的两个事件，它们之间拥有很多共通之处。于是，我们便可以利用“相似”事件的信息来丰富某个我们感兴趣的事件（这个事件本事的发生的次数比较少）。具体到我们现有的场景下，可以利用与我们需要预估的事件（比如query-ad pair，或者page-ad pair）的“相似”事件的信息来帮助我们来做出预估计算。

假设有相同account下的N个ad

，以及所在的page，我们感兴趣的是page-ad pair的CTR，于是我们可以利用贝叶斯的方法来结合（1）这个ad本身的信息，以及（2）该page下与这个ad来自相同account的其它ad的信息。我们观测到的点击信息为

，这些点击信息源自各个ad的隐含CTR信息

，点击信息服从二项分布

。而隐含的每个ad的CTR，可以看做是来自于它们相同的account的公有信息，其服从贝塔分布

。于是乎，每个ad的隐含CTR值，不仅与观测到的展示点击数据

有关，还与其所属的account的整体信息有关，即与

这对超参数有关。我们可以利用二项分布和贝塔分布的共轭特性，计算所有ad所属的相同account的似然函数，然后利用最大似然估计（MLE）来计算超参数

。当有了

的估计值

后，我们便可以得到每个ad的后验估计：

。这个后验估计值可以作为一个平滑后的CTR值，它要比单纯地统计CTR

拥有更小的方差，更加稳定。

3. 数据的连续性

在很多场景下，我们更关心CTR的趋势，而不是一个特定时间点的CTR值。因为对于展示量较少的page-ad pair，某个特定时间点的CTR预估值是包含很大噪声的。我们将展现和点击看做是离散集合的重复观测值，然后使用指数平滑技术进行CTR平滑。

假设对于page-ad pair，我们有M天的展现

和点击

，然后我们希望预估出第M天的CTR。我们将平滑后的展现和点击记为

，它们可由下面公式得到（这里只给出了点击的公式计算，展现也同理）：

其中，

是平滑系数，它控制着我们把历史信息纳入我们平滑的计算中的权重大小。

上述的两种方法：（1）数据层级结构的贝叶斯平滑，（2）时间窗口的指数平滑，可以结合使用。

4. 数据层级结构的贝叶斯平滑方法具体介绍

这里我们规定将page-ad pair的信息在层级结构上上升到publisher-account pair的信息（不同page隶属于相同的publisher，不同的ad隶属于相同的account）。

有两个假设：

（1）对于publisher-account pair，有1个隐含的CTR概率分布，而每个page-ad pair的CTR可以看作是从这个整体的CTR分布中随机采样出来的。

（2）对于page-ad pair，我们观测到其对应的展现信息和点击信息。

其对应的概率图模型如下，灰色部分是观测变量，白色部分是隐含变量：

对于该publisher-account下的所有page-ad pair的点击计算出似然函数：

将上述的log似然函数分别对α和β求导数，即为：

通过fixed-point iteration（不动点迭代）方法，我们可以得到α和β在每一轮迭代中的更新公式：

迭代的终止条件为一个固定的迭代次数（如1000次），或者α和β在一次迭代中的变化值都小于一个epsilon（如1E-10）。一旦有了

的估计值

后，我们便可以得到每个ad的后验估计：

。

4. 数据层级结构的贝叶斯平滑方法代码实现

#!/usr/bin/python
# coding=utf-8

import numpy
import random
import scipy.special as special

class BayesianSmoothing(object):
def __init__(self, alpha, beta):
self.alpha = alpha
self.beta = beta

def sample(self, alpha, beta, num, imp_upperbound):
sample = numpy.random.beta(alpha, beta, num)
I = []
C = []
for clk_rt in sample:
imp = random.random() * imp_upperbound
imp = imp_upperbound
clk = imp * clk_rt
I.append(imp)
C.append(clk)
return I, C

def update(self, imps, clks, iter_num, epsilon):
for i in range(iter_num):
new_alpha, new_beta = self.__fixed_point_iteration(imps, clks, self.alpha, self.beta)
if abs(new_alpha-self.alpha)<epsilon and abs(new_beta-self.beta)<epsilon:
break
self.alpha = new_alpha
self.beta = new_beta

def __fixed_point_iteration(self, imps, clks, alpha, beta):
numerator_alpha = 0.0
numerator_beta = 0.0
denominator = 0.0

for i in range(len(imps)):
numerator_alpha += (special.digamma(clks[i]+alpha) - special.digamma(alpha))
numerator_beta += (special.digamma(imps[i]-clks[i]+beta) - special.digamma(beta))
denominator += (special.digamma(imps[i]+alpha+beta) - special.digamma(alpha+beta))

return alpha*(numerator_alpha/denominator), beta*(numerator_beta/denominator)

def test():
bs = BayesianSmoothing(1, 1)
I, C = bs.sample(500, 500, 1000, 10000)
print I, C
bs.update(I, C, 1000, 0.0000000001)
print bs.alpha, bs.beta

if __name__ == '__main__':
test()

5. 参考文献

1. Click-Through Rate Estimation for Rare Events in Online Advertising

2. Estimating a Dirichlet distribution

版权声明：

本文由笨兔勿应所有，发布于http://www.cnblogs.com/bentuwuying。如果转载，请注明出处，在未经作者同意下将本文用于商业用途，将追究其法律责任。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航