首页 > 代码库 > 【点击模型学习笔记】Ad centric model discovery for redicting ads' click through rate_ANT2013_Tencent

【点击模型学习笔记】Ad centric model discovery for redicting ads' click through rate_ANT2013_Tencent

腾讯soso的人写的一篇文章,介绍soso广告系统的ctr预估技术。2013年的,应该反映了当前soso的ctr预估系统的情况。
ANT会议质量一般,elsevier出版社出版。搞笑的是,文章摘要居然把论文模板上的这句话“Click here and insert your abstract text”原封不动的写在了第一句,并且就这样发表了!

主要内容:
描述soso搜索结果页面中广告点击率预测的系统实现。

具体内容:

1. 相关工作
Rechardson用逻辑回归来预测ctr
kim用图模型来试图解释用户点击行为,利用了一些user-specified的特征
Dembczynski用decision rules

2. 系统实现
从文章的表述上看,貌似soso把用户的点击数据存储到了一个db里面,而且不是存储的原始数据,而是处理过的session数据,结果是造成了一定数据损失。进一步的结果是,作者不能够像Rechardson一样用逻辑回归模型,作者采用了线性回归模型,即各个因素线性加权,结果就是估计出的ctr数值。
从文章中看,用户针对每种特征都做了一定的统计处理,转成了实数,如:20-30岁年龄段人群的平均ctr的数值是多少。因此,模型输入的是实数特征值。经过线性加权后,模型输出的也是实数值。模型的target数值,应该是当前这个样本(广告展示和用户点击pair)的一段时间以来实际的ctr统计值。并且,为了避免数据稀疏问题,训练样本在展示次数和点击次数上都有一定的阈值要求。

3. 特征选取
作者在实现的时候引入了如下几种特征:
(1)user-based feature
如:不同年龄用户对于不同类型广告的平均ctr
(2)position-based feature
如:在不同展示位置的平均ctr
(3)advertiser-based feature
如:不同广告主的广告的ctr
(4)query-ad relevant feature
利用了广告中的词语和query中的词语的重合情况,类似jaccard距离

4. 实验
作者把ctr估计问题变成了曲线拟合问题(回归问题),测试的时候,也是比较
计算出来的ctr与实际的ctr的拟合情况。
值得注意的是,作者在做特征选择的时候,用到了显著性检验,p-value。计算每个特征的系数的p-value,从而决定是否要cut掉这个特征。