首页 > 代码库 > 阿里巴巴西溪算法峰会之机器学习与deeplearning专场

阿里巴巴西溪算法峰会之机器学习与deeplearning专场

  大数据风潮的来临,TMT行业仿佛一夜间易帜,集团战略开始由IT时代迈向DT时代,对于像阿里巴巴这样的公司不管是从广告平台、搜索平台、推荐平台还是到图像采集、语音识别类产品,在底层设计中都用到了非常精妙的算法,而这些优秀的算法在DT时代更加凸显了整个公司的技术实力。 
2014西溪峰会,齐聚集团算法十几个应用领域,几十个研发团队,与大家一同分享在业务中实践出来的优秀算法与经验,希望大家关注与支持算法领域的建设。共同探索和挖掘算法领域的宝藏,推动阿里巴巴集团从IT到DT的战略进程。 

  机器学习与deeplearning专场: 
  我们已经走向了DT时代,但是拥有数据是否就等于拥有了财富?如何更加高效的挖掘蕴藏在海量数据背后的价值?大规模分布式实现的机器学习算法将是打开这个宝藏的钥匙之一。事实也证明了这一点,机器学习算法已经在阿里巴巴集团的众多业务线中承担了不可替代的角色,比如广告、搜索和推荐业务。DeepLearning作为正在蓬勃发展的机器学习手段,在图像、语音、自然语言处理等领域也已崭露头角。经过接近一年的努力,目前阿里巴巴集团的大规模机器学习平台已在ODPS上平稳运行了半年多,大规模DeepLearning算法平台也正在筹建中。本次机器学习算法专场论坛涵盖了我们将机器学习算法应用于互联网应用的一些自主创新和领先成果。比如互联网下的大规模非线性模型MLR的应用研究,比如基于CPU和GPU自主实现的Deeplearning算法以及其在GPU平台上部署和算法调优的经验,比如Learning To rank和Deeplearning应用于CTR预估的研究等。

  Topic:

  MLR—互联网下的非线性模型探索,靖世
  导购场景中机器学习算法的应用,吴钩
  LTR & 基于深度学习的CTR预估调研,仁基
  Deep learning GPU平台和算法优化,长仁

 

  算法峰会参会记录&感悟:

  • 在图数据计算和机器学习方面,阿里的积累还是不如百度IDL(3个子研究院)深厚,并且很多团队之间仅仅因为业务的不同导致同一种技术不止一个团队在做。
  • 百度IDL的余凯、Andrew NG(余凯从Google Brain挖来的)等都是这方面的顶级专家,圈子很重要。
  • 现在是machine learning(包括deep learning)最好的时代,很多人都说自己搞deep learning,其实很多人都没搞不明白,比如我,但是我觉得machine learning是一个很好的技术方向,说不定对我们团队以后挖掘新事物会有所帮助。
  • 去年Science上刊登了一篇关于数据挖掘的论文,Clustering by fast search and find of density peaks,有时间真的要钻研一下,技术朴实实用。
  • 发表在Science和Nature主刊上的统计和机器学习文章并不多,比较著名的有00年的Isomap,06年的深度神经网络降维,07年的Affinity Propagation,00年Sam的LLE,11年的最大信息系数。在Nature上的有96年的Sparse Coding和99年的NMF。
  • 另外一些Science & Nature上酷到没朋友数据挖掘相关论文:1. A Global Geometric Framework for Nonlinear Dimensionality Reduction 2. Reducing the Dimensionality of Data with Neural Networks 3. Clustering by passing messages between data points 4. Detecting Novel Associations in Large Datasets。

  待补充。

 

阿里巴巴西溪算法峰会之机器学习与deeplearning专场