首页 > 代码库 > CTR预估评价指标介绍

CTR预估评价指标介绍

1 离线指标

1.1 LogLoss

1.1.1 KL散度

  logloss使用KL散度来计算。设样本的真实分布为P,预测分布为Q,则KL散度定义如下:

  技术分享

  这里可以通俗地把KL散度理解为相同事件空间里两个概率分布的相异情况。KL散度越小,预测分布越接近真实分布。

  KL散度的物理意义是:使用分布Q来对真实分布为P的事件进行编码,导致平均编码长度增加了多少。具体解释可见百度和知乎。

 

1.1.2 CTR中KL散度的计算

  CTR预估中,测试集中每个样本是一条广告,它有一个真实的点击率tctr和一个预测的点击率pctr。这里事件空间里面只有两个事件,即点击还是不点击。因此KL散度公式可以写成如下:

技术分享  上述公式中,如果我们能直接知道样本的tctr,那么就可以直接代入计算了。但是实际工程中,我们实际上要做一个lable匹配的过程,才能知道一条广告的真实点击率。即对于广告a,我总共展示了N次,每次展示会生成一个唯一的ID,记为i,如果用户在这次展示中点击了它,那么点击系统就会记录这个ID。然后对于展示系统中这条广告的每个ID,去点击系统中查找这个ID存不存在,如果存在说明这次展示被点击了。我们将展示次数记为impression,点击次数记为click,则KL散度可以推导如下:技术分享

 因此,计算logloss的伪代码如下:

技术分享

 

1.2 AUC

1.2.1 ROC曲线

  如果把CTR预估看作一个二分类问题(点击还是不点击),则可以计算出

 

CTR预估评价指标介绍