首页 > 代码库 > CTR预估评价指标介绍
CTR预估评价指标介绍
1 离线指标
1.1 LogLoss
1.1.1 KL散度
logloss使用KL散度来计算。设样本的真实分布为P,预测分布为Q,则KL散度定义如下:
这里可以通俗地把KL散度理解为相同事件空间里两个概率分布的相异情况。KL散度越小,预测分布越接近真实分布。
KL散度的物理意义是:使用分布Q来对真实分布为P的事件进行编码,导致平均编码长度增加了多少。具体解释可见百度和知乎。
1.1.2 CTR中KL散度的计算
CTR预估中,测试集中每个样本是一条广告,它有一个真实的点击率tctr和一个预测的点击率pctr。这里事件空间里面只有两个事件,即点击还是不点击。因此KL散度公式可以写成如下:
上述公式中,如果我们能直接知道样本的tctr,那么就可以直接代入计算了。但是实际工程中,我们实际上要做一个lable匹配的过程,才能知道一条广告的真实点击率。即对于广告a,我总共展示了N次,每次展示会生成一个唯一的ID,记为i,如果用户在这次展示中点击了它,那么点击系统就会记录这个ID。然后对于展示系统中这条广告的每个ID,去点击系统中查找这个ID存不存在,如果存在说明这次展示被点击了。我们将展示次数记为impression,点击次数记为click,则KL散度可以推导如下:
因此,计算logloss的伪代码如下:
1.2 AUC
1.2.1 ROC曲线
如果把CTR预估看作一个二分类问题(点击还是不点击),则可以计算出
CTR预估评价指标介绍
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。