点击率校准

首页 > 代码库 > 点击率校准

2024-07-27 22:10:54 220人阅读

通常预测的点击率都是不准的，需要校准。例如，boosted trees and SVM预测结果趋于保守，即预测的概率偏向于中值；而对于NaiveBayes预测的概率，小概率趋于更小，大概率趋于更大。常用的校准方法有Binning和Pair‐Adjacent Violators (PAV)；下面分别说说这两种方法。

Binning思想比较简单，也容易实现。

需要说明的是，通常校准算法不仅仅是将概率校准为另一概率，而是广义地将一分类器的输出score(例如SVM的输出)校准为一概率；这里的score在本文中指的就是预估的点击率CTR。

采用以上方法就可以得到每个bin的平均输入概率和输出概率(输入输出都是相对于算法而言的)。下面是我针对1kw曝光量的测试集得到的每个bin输入输出概率：

7.88491695029e-08       9.80392156863e-05       4|50000
5.4510560119e-07        0.000274509803922       13|50000
1.35458085469e-06       0.000372549019608       18|50000
2.33257130656e-06       0.000588235294118       29|50000
3.39343704862e-06       0.000313725490196       15|50000
4.91818880101e-06       0.000352941176471       17|50000
6.69217711e-06  0.000313725490196       15|50000
8.65811344814e-06       0.000392156862745       19|50000
1.00954604284e-05       9.80392156863e-05       4|50000
1.14438087348e-05       0.00021568627451        10|50000
1.30646586671e-05       0.000196078431373       9|50000
1.50354239562e-05       0.000156862745098       7|50000
1.75724883698e-05       0.000235294117647       11|50000
2.012701573e-05 0.000196078431373       9|50000
2.25293057122e-05       0.000254901960784       12|50000
2.47121329232e-05       0.000294117647059       14|50000
2.68149995297e-05       0.000235294117647       11|50000
2.87109118589e-05       0.000235294117647       11|50000
3.03836824801e-05       0.000274509803922       13|50000
3.27245870019e-05       0.000450980392157       22|50000
3.51748897506e-05       0.000274509803922       13|50000
3.7623296079e-05        0.000352941176471       17|50000
4.03544768064e-05       0.000490196078431       24|50000

。。。

这只是前面一些片段，第一列为每个bin的平均预估点击率，第二列是校准的点击率，第三列为校准时分子分母的值(这里就是点击量和曝光量)，这里每个bin的总量均为50000。对整个每个bin的平均预估点击率和校准点击率画出散点图为：

可以看出两个点击率是相关的，这样看还看不出具体什么关系，画出对数图：

可以很明显地看出平均预估点击率大于0.0001时，平均预估点击率的对数与校准点击率的对数是呈线性关系，

logy = alogx + b 得到y = cx^a, 估计出参数c和a即可。

对于平均预估点击率小于0.0001时，可以简单地使用线性回归求出方程。有了这两个方程就可以对任意的点击率进行校准了。

当然，我看也有人将以上平均预估点击率划分成若干区间0 < v1 < v2 < : : : < vn+1 < 1，对任意的点击率进行查找所属区间(vi,vi+1)，采用线性插值得到的校准点击率为 α p(vi) + (1 - α )p(vi+1)。

1.将score由大到小排序，对于任意两个相邻的score(i)和score(j)，若它们对应的样本属于不同类，则我们希望样本i属于正类，样本j属于负类
2.对于任意两个相邻score，若上述条件不满足，则令这两个score所定义区间对应的后验概率为score(i)和score(j)的均值。
3.对排序后的score按照上述规则进行一次“扫描”（由小到大或由大到小均可），直到没有变化为止，即完成了PAV

python-sklearn包中含有http://scikit-learn.org/stable/modules/generated/sklearn.isotonic.IsotonicRegression.html#sklearn.isotonic.IsotonicRegression 可以直接调用：

from sklearn.isotonic import IsotonicRegression as IR

ir = IR()
ir.fit( p_train, y_train )
p_calibrated = ir.transform( p_test )   # or ir.fit( p_test ), that's the same thing

参考资料：

http://fastml.com/classifier-calibration-with-platts-scaling-and-isotonic-regression/

http://scikit-learn.org/stable/modules/generated/sklearn.isotonic.IsotonicRegression.html#sklearn.isotonic.IsotonicRegression

http://wan.poly.edu/KDD2012/docs/p768.pdf

点击率校准

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 点击率校准

点击率校准

看完仍有疑问？有类似问题直接问程序猿