首页 > 代码库 > 数据挖掘启程经历
数据挖掘启程经历
2014年初经过深思熟虑,确定方向数据挖掘,作为今后工作生涯的追随领域。
3月份开始看机器学习的课程,到了4月底,参加阿里巴巴的大数据竞赛,便把课程学习给落下了—— 一大遗憾。
比赛的成绩可想而知,由于知识储备不够,况且还是单干,只能说还行,从七千个队伍到前五百名内,再从三百名到一百多名,然后遇到瓶颈,挣扎了很长时间,没有进展,便放弃了。归要结底,还是实力不行。于是,沉下心来学习。
幸运的是,在阿里的交流会上认识了一些不同高校的高一级或几级的研究生和博士,于是在同一领域,有了不错的学习对象和伙伴。
比赛时用的算法:
机器学习的算法,最初比赛的大部分队伍包括我自已用的是LR,之后,随之着特征的增多,转向gbrt,随机森林。
有些队伍用的算法,是协同过滤,属于推荐系统的内容,这个算法曾经在亚巴逊获得了非常轰动的成功。
每个算法有各自的特点,同一个研究问题,可以有多种解决方案。
阿里的大数据竞赛:因为在学术界,数据和足够的内存是两大硬伤,所以阿里提供的这次机会是相当可赞的。今年是阿里第一次举办对外大数据竞赛,提供的数据是 天猫上 用户的访问行为, 需要预测下个月 , 哪些用户会购买哪些品牌。 第一赛季是几G数据,第二赛季就是几十G了,5.7条访问行为,其字段包括:用户id,品牌id,访问类型(点击,加入购物车,收藏,购买),日期;当然,为了保护隐私,这些id号都是做过映射的。
看似给出的信息量类型太少,但 内部赛冠军说过,这些信息足够让你分析非常多有用的信息,比如客户分类:性别,年龄,高价值会员等等,他问,有没有人 将映射后品牌id进行还原。 ~ 呵呵
比赛中,有近五千台机器供参赛选手们使用,每淘汰一批选手,系统就会升级一次。天池的内存,足够你用了。对于我个人,一张表往往有几千万条记录,甚至上亿,而且 我有几百张表。
大规模的计算资源是最让鄙人不舍的。还有一个月,比赛才结束,按照成绩,是可以留到比赛结束的前一天的。有点可惜,能力目前有限。
据消息 ,明年 阿里仍会有外部大数据竞赛,数据将会是气象数据,由中国气象局提供。
如此大规模的竞赛,参加选手之多,阿里算是第一位了。