数据挖掘启程经历

首页 > 代码库 > 数据挖掘启程经历

2024-07-09 23:25:05 228人阅读

2014年初经过深思熟虑，确定方向数据挖掘，作为今后工作生涯的追随领域。

3月份开始看机器学习的课程，到了4月底，参加阿里巴巴的大数据竞赛，便把课程学习给落下了—— 一大遗憾。

比赛的成绩可想而知，由于知识储备不够，况且还是单干，只能说还行，从七千个队伍到前五百名内，再从三百名到一百多名，然后遇到瓶颈，挣扎了很长时间，没有进展，便放弃了。归要结底，还是实力不行。于是，沉下心来学习。

幸运的是，在阿里的交流会上认识了一些不同高校的高一级或几级的研究生和博士，于是在同一领域，有了不错的学习对象和伙伴。

比赛时用的算法：

机器学习的算法，最初比赛的大部分队伍包括我自已用的是LR，之后，随之着特征的增多，转向gbrt,随机森林。

有些队伍用的算法，是协同过滤，属于推荐系统的内容，这个算法曾经在亚巴逊获得了非常轰动的成功。

每个算法有各自的特点，同一个研究问题，可以有多种解决方案。

阿里的大数据竞赛：因为在学术界，数据和足够的内存是两大硬伤，所以阿里提供的这次机会是相当可赞的。今年是阿里第一次举办对外大数据竞赛，提供的数据是天猫上用户的访问行为，需要预测下个月，哪些用户会购买哪些品牌。第一赛季是几G数据，第二赛季就是几十G了，5.7条访问行为，其字段包括：用户id,品牌id,访问类型（点击，加入购物车，收藏，购买），日期；当然，为了保护隐私，这些id号都是做过映射的。

看似给出的信息量类型太少，但内部赛冠军说过，这些信息足够让你分析非常多有用的信息，比如客户分类：性别，年龄，高价值会员等等，他问，有没有人将映射后品牌id进行还原。 ~ 呵呵

比赛中，有近五千台机器供参赛选手们使用，每淘汰一批选手，系统就会升级一次。天池的内存，足够你用了。对于我个人，一张表往往有几千万条记录，甚至上亿，而且我有几百张表。

大规模的计算资源是最让鄙人不舍的。还有一个月，比赛才结束，按照成绩，是可以留到比赛结束的前一天的。有点可惜，能力目前有限。

据消息，明年阿里仍会有外部大数据竞赛，数据将会是气象数据，由中国气象局提供。

如此大规模的竞赛，参加选手之多，阿里算是第一位了。

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 数据挖掘启程经历

数据挖掘启程经历

看完仍有疑问？有类似问题直接问程序猿