首页 > 代码库 > 浪叫兽的自我介绍 (完整版) 讲述一段如何进入大数据行业

浪叫兽的自我介绍 (完整版) 讲述一段如何进入大数据行业

大家好,我是智浪淘沙,在大数据比赛的圈子里大家喜欢称呼我为浪叫兽。

我先做一个简单的且不如意的人生轨迹介绍把,出生农村的我,对自己的才智一直是很自信的。可能是由于自己的天性,不会表达自己加不会按部就班的喜欢上学习,我小学和初中都默默无闻,成绩也不怎么理想,但是始终好着面子,依然是觉得自己很聪明,自己以后能干些大事。而时常被考分的现实所打击。进入高中后,人开始长高了,人也帅气了一点点,玩心也大了,学了学校的美术,音乐,播音主持,体育的专业课,其中美术可能是一个星期,播音主持半学期,音乐半学期,体育好像一直到高三,但是没报专业考试。当过学生会主席,还有班长。高中很开心的过去了,高考也和最后一年的意料之内的事情一样,黄了。

毕业之后去了北京某某培训机构,学了两年的Linux运维,但是苦于性格放不开,年纪太小,当时还很排斥90后,当然还有学历太低,在北京处于很尴尬的地步,并没办法在北京落脚。

10年在深圳,做过销售,做过简单的电脑维护,12年回到长沙开上了图文店,每天起早贪黑,超过十二个小时的个体户工作,身心疲惫,萌生了再次进入职场的念头,15年在朋友的介绍下进入了电网系统内的一家运维单位,做网络运维,可以简单称为网管把。

15年入职网管,我内心是很激动的,终于踏上了梦寐以求的职场,认识了很多热心的同事,并且接触了很潮流的名词,股票投资,并学了假的波浪理论,假的缠论,假的量能理论,并花了2W了的学费,戒掉了股票投资。

一切从浪叫兽开始。

钱输了,人却没因此放弃对技术的研究,萌生了想法,希望通过爬虫抓取股票的新闻,来分析新闻可能对股票产生某些信号。16年4月份在爬虫群里遇到了我Python的第一个老师,大鱼,我亲切的喊他为鱼神。在玩Python爬虫的同时,我学会了简单的flask 和echart。

对于从来不会Python的我,几个星期的学习下来,从Python爬虫,到将数据入库,还有用js的网页方法展示股票数据,就这样简单的完成了。激发了我对Python编程的爱好。

由于需要对数据进行处理,在Python的环境下需要学习一个叫pandas的库操作,我加入到了pandas群,遇到了人生中的启蒙叫兽,牛叫兽,在牛叫兽的耐心指导之下,我pandas的使用,还算很融会贯通了,因为我的提问多,短短的一个月,我就在pandas群里获得了叫兽的称呼,叫兽是QQ群的一种积分排名,刚刚好发言最多的人被称为叫兽,后面在网友chengxu等人的玩笑话之间,叫兽在我建的新群中继续得到了延续。

我喜欢被人称为浪叫兽,因为这是一个比较活跃的人才能在群里取得的头衔,在我看来我是多么的热爱学习才能获得这样的头衔。

当初牛叫兽说他想学机器学习,当时我很羡慕他的工资待遇,1W2左右把,在上海可能不高,但是对于在长沙待遇只有4000左右的我来说,却显得那么的遥不可及。

既然牛叫兽说他想学机器学习,那我就跟他一起学呗,我们建了一个群,并找了学习资料开始学习起来,当初我下载过一份黄博的机器学习笔记,并加入了他的群。在建群后我就在黄博的群里,拉了20多个朋友,加入了学习机器学习的生涯。

学了一个月左右把,群里的mat,说群主你这么好学,不如去玩玩比赛,然后他就发了科赛的网址,正好遇到了我人生中的第一场比赛,携程赛。

第一次比赛的我其实很逗比,没有使用过sklearn,xgboost,lgb,各种算法也只在一个月中看过概率图模型,统计学习方法,数学建模算法大全了解过一些基本知识。

上一个月和牛叫兽,chengxu,Silence,在群里交流的都是一些算法上的简单理解,还有hadoop,pyspark,sql。

还好Silence曾经玩过滴滴的比赛,好像排名还很靠前,只是因为要考英语证书,没时间指导我。我就厚脸皮的在携程赛的群里,不惧他人的嘲笑,用简单的散点图,和柱状图在群里用我的理解分析数据,并在交流的过程中认识到了,李老师,钢的弦,世超,等等热心的伙伴。

依稀记得当时有yesboy(荣获“猜你喜欢”比赛冠军),说他使用的xgboost算法,在携程赛中获得了前5的地位,对我来说xgboost是一个陌生的名词。

很多新人安装xgboost都要折腾半个月之久,我想都是不善于自己动手把,或者没人指导安装,勤劳好学的我,只花上了一天的功夫,安装好了git,mingw,编译xgboost,安装xgboost,并测试安装成功。无非就是在网上多搜索了一些文档把。

安装完成xgboost,他不过是一个冰冷的库,当时也很厌倦去网上搜索使用教程,不过说实在的,网上的教程也不是讲的携程赛的数据上怎么用,那就伸手党做一下把。

切换到黄博群里,黄博群里有一个,人称海淀吴彦祖,据说是玩kaggle的,猜想xgboost对他来说肯定很容易,这人一定很牛叉,果不然,我向他提问xgboost怎么玩,他也耐心的指导我,要调好参数,可是我是一脸蒙逼的问不下去问题,我压根没玩过,我怎么知道什么是参数,后面他的一句话让我在整个比赛生涯中都留下了思考,他说这一切都是套路。

Silence恰好有时间来玩比赛了,当时和世超,李老师(五个月就拿下了天池的数据科学家)mat,纳蓝,钢的弦,组了携程赛的小交流群,大家都很友善的指导我这个新人,一起交流学习,而正当此时,破特曼,以0.17 的bug成绩霸了携程赛的榜,好像又发现了一个新的大牛,便和他纠缠起来,请教他怎么弄的那么高的分,心有不甘把,为啥人家能这样高的分,我却不能,便在找到了海淀吴彦祖指导,我说xgboost的简单使用我已经会了,能不能在教教其它的,在不经意之间发现,海淀吴彦祖和破特曼居然是队友。

终究是抱团打战的,不过世超最后也挤进了排行榜前十,钢的弦和yesboy也在前五了。

再次遇到超强组合是在今日头条上面,携程赛完了,比赛的热情却没有熄灭,在群里他们说今日头条赛是yin叔和老王的约战赛,当时想这两个人又是谁,既然能约战,那就有华山论剑的精彩,那就去凑凑热闹 ,报名了今日头条赛。

下载了今日头条数据,我始终排名在100多名,始终还是找不到数据挖掘的关键。

在mat的带领下,我加入了DC一群,看到了老王开源的规则代码,在交流规则代码的过程中,也在群里认识了苍老师,yin叔,和一些群友。

我当时并看不懂R,而牛叫兽在公司已经完成了hadoop的学习,并开始学习R做统计方面的学习,下载了老王的规则代码,便要牛叫兽帮忙翻译了R代码,翻译之后提交了答案,发现居然跑到了前30名,瞬间觉得老王好牛叉,简单的两三句代码居然能让我突破那么多。

对老王萌生了仰慕之情,不过那都是想多学点技术了。

不过30,名有啥用,海淀吴彦祖和破特曼的组合都已经前十了。我和他们的差距真的太大了。

竞赛圈子说大很大,我从来不知道数据挖掘能有这样多的高手,在一直关注着比赛,而且此时我身边都是很多本科生,很多研究生,还有博士生了。

我不知道这意味着什么,但是仔细思考。我和他们的差距实在是太大了,不过我也坚信,我和他们一起交流,能有所收获,我要做的就是和携程赛一样,敢于交流我的想法,敢于和技术高的交流,在今日头疼赛中,我就继续保持了携程赛的风格了,便和知落,东哥,等等小伙伴,一起交流数据挖掘技术,并知道了交叉验证,网格搜索调参,还在知道了多模型融合,不过了解这些技术也并没有让我的今日头条排名继续靠前。

机缘继续来自电网。

今日头条赛便不了了之的结束了,因为干不过人家嘛,提升不上去了,玩起来也没多少意思了。

继续在群友发布的信息下,知道了CCF要举办一场大赛,这次大赛有13个赛题,其中也有国家电网信通产业集团主办方出的用电异常行为分析赛题。

因为在电网系统下的公司工作,一个是想借由此次比赛获得经验,二是想通过好好的参与此次比赛,好转型数据挖掘岗位。便报名参加了这次用电异常行为分析赛题。

刚刚开始玩,发现第一名遥遥领先在排行榜,在技术交流群里也认识了这位可乐,和可乐的交流很开心,因为又发现了一个新大牛kaggle master 。当时我还在30多名的成绩把,在和技术群的群友交流的过程中,学会了简单的特征工程,其实也就是普通的描述统计量,可以说是最简单的了。

排行榜玩了没多久,我惊奇的发现,破特曼和海淀吴彦祖和可乐并队了,好强悍的队伍,让我有一种冲动接近他们,甚至是超越他们,随即在交流群里,大喊一句谁和我一起干掉破特曼。

在交流之下,有小水,老王,苍老师,mat,钢的弦和我组了交流群,因为前期的比赛时间太长,而且只要前100名就可以进入小复赛。在短短的几天交流中,我从某位群友给的思路中学会了稍微高级一点的特征工程,并由此设计了生成高纬度特征的特征轮。

而复赛却没能和小水,老王,苍老师组队。我和mat,钢的弦,加上两位非常热爱数据挖掘的小伙伴,组队‘隐马尔科夫联盟’。

在努力学习和参考各种书籍的前提下,还有比赛过程中,金老师和我电网系统的一位朋友兼对手,对我的指导。我们组最终获得了用电行为分析赛的第二名,并受邀答辩夺得了该赛题的二等奖。

不过,真正的实力总能压制着我,破特曼他们收获了该赛题的第一名,并且在线上的分数远超我们。

在答辩的盛会上,见到了很多人,其中有中科院院士,以及各种机器学习,人工智能,数据挖掘的领军人物。

在用电赛会场,和我一直好奇的破特曼和吴彦祖线下的交流是很愉快的,还有很重要的是,在此次比赛中,见到了信通产业集团的领导,这也算是和企业直接进行交流了。

答辩赛后,信通产业集团的领导,很亲切的和我们参赛成员进行交流,并给了名片,说欢迎各位人才加入信通产业集团。不过我深知我这点能力远远不够进入企业工作,一个比赛排名并不能说明个人能力,或许只是我个人运气好而已把。

通过这次比赛,不仅仅为了工作把,而且也真正的感受到了数据挖掘的魅力,对数据的处理,并通过掌握数据的规律,推动各种行业的发展,让数据成为行业的肥料,促使其茁壮成长。

答辩返程回家,我又开始了新的一轮比赛。

可能出于内心虚荣的膨胀,这里我也自己弄了一个小插曲,我喊群内的朋友发了一篇自媒体,并发在我的朋友圈中,没想到这文章引来我身边很多亲戚朋友的赞赏,而且因此直接获得了湖南本地企业的邀请,从事大数据技术的研发和建设,并开出了20一个月的待遇,不过很遗憾的是,我内心还是很自卑的,一个是我无法接受如此好的待遇,二是我对金融行业并不了解,三是如果我带领团队,给企业带了损失,我也没有能力担此责任,出于这些想法,我还是委婉的拒绝了这份offer。

但是对数据挖掘岗位的追求,让我没办法停下脚步继续参赛。

通过半年的学习和努力,苦心摸索技术,苦学记在心尖,拿到了CCF举办的用电赛第二名,大致了解了海淀吴彦祖说的套路,不过可能也是一些皮毛。

正好手头上还有一个比赛,DC的助学金比赛,我准备用我所学的数据清洗+特征轮+多模型+参数调优的常规数据挖掘套路玩助学金比赛,直接用上用电赛所总结的特征轮思路,加上简单的模型,我很快就获得了助学金排行榜的第二名,并喊上了前期交流的赤子之心,钢的弦,mat,还有我当初学pandas一起的伙伴 chengxu。组队“贝叶斯部落”,刚刚开始作为队长的我其实很自负,因为我自以为熟悉的掌握了数据挖掘的套路,我对其它队友的期望仅仅是分配任务和希望得到更好的业务特征,并在此时,信通产业集团邀请CCF获奖的参赛者,一起参加成果落地研讨会,并注明了洽谈就业意向。

这对我来说又是一次重拾数据挖掘岗的机会,我和mat商讨,助学金的PPT由我们两个一起再次称述。

在研讨会上,由于我的表现突出,个人比较活跃,而且我的奋斗事迹和对数据的直觉,让参会的来宾和信通产业集团的领导对我颇多赞赏。

于是我抓住了这次机遇,向领导请求进入信通产业集团旗下做大数据挖掘工作,从北京的研讨会归来,我很快的制作了一份个人简历,发送给信通产业集团的领导,领导二话不说立即将我的简历发送给了信通产业集团旗下的一个公司。

几个月的付出和努力,终于让我看到了回报,内心满是高兴。随后没过多久就和HR取得了联系。因为此时已经接近年尾,HR说年后详谈面试和offer事宜。

正直过年,通过融合技术,在过年之前拿下了助学金第一名的排行榜。

年后,助学金比赛中我的特征+模型融合方案,很快的再次被破特曼,不思蜀组的BUG队超越。而此时他们也在DC的另外两场比赛取得了非常好的成绩,交通赛第一,金融赛忘记了。

已经逼近我的上限了,第一的位置被拱手相让了。此时我队友赤子之心爆发了,直接用了他的单模型+特征,霸了助学金第一,以超出第二名非常高的成绩,在助学金更换数据之前,霸榜了一个月之久。

换数据之后,可能是因为之前并没用针对过我们的最佳方案设计融合框架,助学金最后和三剑客并列第二的得分。第一被另外实力高强的小伙伴夺得。

在DC助学金比赛的过程中,也认识了涛哥(当然涛哥在我去北京研讨会的时候面基过一次)等在企业从事大数据方向的工作的作业人员,并在交流中也获得了他们的内推,收获了京东和融360的算法工程师的面试。

时间很快来到了DC的线下答辩会场,在DC的安排下我们参观了对数据挖掘,机器学习,神经网络有需求的公司,听了他们公司业务还有对大数据技术的需求,还有数据挖掘具体的应用场景和数据科学家们平时在数据方向做的工作。

答辩完,由yin叔喊话,我们和神经网络keras群群主莫言,还有其他参赛选手包括老王,DC收割了三个比赛的两个第一,一个第二的BUG队,总计15人组起了饭局。

成员中,yin叔是在国企工作的老职工,以我们的年纪都要尊称他为yin叔了,不论是在答辩会场,还是在平时的群里交流,或者是我们线下的交谈中,yin叔都是以兴趣为导向的玩着竞赛,各种敬佩之情油然而生。

组织饭局的莫言和他的室友,研究生还未毕业,就已收获了腾讯和大疆的正式offer,对神经网络有很深刻的自我认知。还有老王,很可爱的博士,平易近人,已经在老牌外企获得非常自由的工作。当然还有BUG队,此次都已经第二次见面了,还有我的队友赤子之心,在部队的他也是因为对数学的追求,才来玩大数据比赛的,未成想过第一次参加比赛就获得如此好的成绩。当然还有很多在校和在职,还有和我一样刚要入职的朋友。

大家把酒交谈,交流各自的比赛经历,比赛心得,还有比赛过程中如何认识的其它伙伴,当然还有读书经历,找工作的经历,对大数据行业的想法。

自此从16年的4月份开始入门Python,到17年的3月份的经历,让我进入到了潮气蓬勃的大数据行业当中。

答辩回到湖南,接到了来着信通产业集团下的项目经理的电话,说我们的项目在我现在所在的城市启动,项目是整套的大数据搭建 + 挖掘的项目,从汇总各个系统业务数据开始,也包括采购设备。对我来说是非常难得的机会。虽然我们玩比赛很多都是获得的公司的算法工程师的面试,我深知那个是需要很专业的理论知识的,我也一直在比赛的过程中读了不少于100本的书籍(当然很多都是略读),越玩比赛多了,反而更深知我离算法岗有多少距离。京东和融360 的算法工程师待遇颇高,但是我目前的水平是不能胜任的。

而信通产业集团的知遇之恩,还有我也一直在电力系统旗下的产业工作,我个人对电力系统还是颇有好感,我也相信现在的工作岗位给我也会带来一段非常丰富的人生经历。

本想写很多心得的,但一千个读者眼中有一千个哈莫雷特,我就最后简单的总结一下这一年的经历。

从比赛开始,我从单身到完婚,到有了小孩。而且一直都是在职玩比赛,其实很多时候,我还是很累的。不过在比赛过程中,不论是遇到大牛的关照,还是遇到比我更牛的“新人”,对的这里的“新人”只是第一次玩比赛而已,这些人都比我更具能力和天赋,我只是置身在他们中间,充当了一个媒介而已,我的人生被他们带动着往前发展,对于这一年的运气,我很是满足了。

努力的人很多,我只是运气好而已,虽然是运气,我还是想把他说成是努力得来的。不能磨灭一个想努力的心态,好好努力过上自己能接受的生活就好 不需要很好 至少能说是平凡的一生。

此文已经有DF比赛平台约稿转载 写于2017年3月份

浪叫兽的自我介绍 (完整版) 讲述一段如何进入大数据行业