百度技术沙龙 - 广告数据上的大规模机器学习

2024-07-02 17:58:28 229人阅读

上个月，参加了百度技术沙龙，夏粉的《广告数据上的大规模机器学习》讲座介绍了大规模机器学习中的若干重要问题。遗憾的是，百度的相关算法没有公开的论文。

1. 数据处理

目标：获取信息，去除噪音

机器学习技术点：选择对点击概率分布预估足够多样本

解决方法： a. 不可见和不完整样本过滤; b. 样本采样; c. 异常样本检测

算法：a. 百度 SA算法; b. Google (KDD 2013)

2. 特征处理

问题：大量的类型型特征和ont-hot特征导致海量特征

目标：选择尽可能少的特征来表示模型和数据

机器学习技术点：特征选择；特征删减

算法： a. 百度 Fea-G算法 (理论上保证无损)； b. Google (新特征以概率p加入BloomFilter+次数超过n)

3. 深度特征学习

问题：为了描述特征之间的非线性关系，而构造高阶组合特征怎么自动化？人工构造耗时耗力且难于推广

算法：百度 DANOVA算法，能使得特征挖掘效率提升上千倍

4. 模型时效性

问题：模型更新的时候训练数据尽可能少

技术挑战：时效性，稀疏性，稳定性

算法：稀疏在线算法

a. Google 保留前N次模型梯度方法，不够稳

b. 百度 SOA算法

5. 模型训练

问题：怎么寻找更好的优化方向，减少迭代的轮数

算法：百度Shooting算法，相比传统的LBFGS从平均50轮，降低为5轮，训练更充分

参考文献

1. Ad Click Prediction: a View from the Trenches (KDD 2013 Google)

2. Lessons learned by developing large scale practical machine learning system (Google Seti Project. Simon Tong 04/06/2010)

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们