首页 > 代码库 > 大数据时代的机器学习

大数据时代的机器学习

本文参考CCF YOCSEF的“大数据时代的机器学习报告会”的相关内容。


张长水:大数据时代的机器学习 VS 传统机器学习

从机器学习角度看,“大数据”指的是数据量大,数据本身不够精确,数据混杂,数据自然产生。机器学习对大数据的处理的两个挑战:

  • 数据量大导致计算困难
  • 分布在不同服务器上的数据存在一定联系,这些数据基本上不满足“独立同分布”假设,传统的模型和算法很难适应。
大数据时代给机器学习带来新的机遇:
  • 在某些应用条件下,高维空间中的局部数据变得稠密。这个现象可以为分类器的设计提供更丰富的信息。甚至使分类器在性能上接近理论极限性能。
  • 大数据使样本空间原本“空旷”的区域出现样本,这也为提升分类器性能提供潜在基础。


于剑:从认知角度看待大数据
该报告从认知角度分析数据与知识的联系。目前机器学习的知识主要是概念,传统的小数据很难反映领域的复杂知识,大数据提供了学习复杂知识的机会。在大数据时代,未来的机器学习可以超越概念学习,进入复杂知识学习时代。


李沐:深度学习在统计机器学习领域的应用
深度学习在图像,视频领域已经取得很大的进展。但是在自然语言处理方面,还有很多的问题需要解决。包括如何用深度学习的方法处理:
  • 双词语对齐
  • 层次化机器翻译解码
  • 主题建模
  • 提升机器翻译质量
  • ...
当前该领域的一些进展:
  • 自动编码机和Recursive自动编码机用于实现从单词和短语到实空间的映射
  • 上下文相关的DNN-HMM模型能够自动发现双语语料中短语和单词的相似性,从而实现词语对齐
  • Recursive Recurrent Neural Network (R2NN)能将不同信息集成起来,建立树结构的翻译候选集

 徐盈辉:大规模机器学习在阿里电子商务中的应用
当前,阿里数据平台事业部的服务器上,积攒下超过100PB的多元异构数据。电子商务环境下的机器学习课题包括:
  • 点击率预估
  • 转换率预估
  • 个性化搜索
  • 个性化推荐
  • 商品自动聚类
  • 销量预测

李沐:大规模分布式机器学习系统及其应用
该报告主要介绍由百度,Google以及CMU合作建立的开源计算平台---参数服务器(Parameter Server)。该项目产生的背景是由于工业领域产生的数据已达到千亿样本,百亿特征。这导致对于复杂的非线性多分类任务,模型参数的计算量是非常巨大的。这就需要通过分布式系统来解决这个问题。需要探索在不同机器上分配计算负荷、共享内存计算模型、并行化学习策略以及降低通讯开销的策略和方法。

PS:人物介绍
张长水:清华大学教授
于剑:北京交通大学教授
李沐:微软亚洲研究院研究员,百度深度学习研究院少帅学者
徐盈辉:淘宝搜索算法高级研发专家