首页 > 代码库 > 【实习经历】我在云创大数据的三个月又十天
【实习经历】我在云创大数据的三个月又十天
今天是2016年10月4号,时间过得很快,距离我2016年6月28日入职云创大数据(http://www.cstor.cn/)已经足足98天,十一假期结束,正好满100天。很感谢张总(张真)、刘教授(刘鹏)给自己的实习机会,很感谢杨老板(杨震宇,处理组项目经理经理,都这样称呼,哈哈)平时的照顾和指导,感谢沈大哥(沈大为,现外联总监,原平台部项目经理)给我面试,并给我实习offer。在这里,我学到了很多,先后参加过《 运营商大数据精准广告投放技术方案》的撰写、Sort BenchMark的100T的数据排序比赛(2015年,阿里世界冠军,我们最后没参加成很遗憾)、江苏省地理信息测绘院的历史数据在线化开发(数据量之大,令我汗颜)等关键项目,项目中使我在校学到的理论知识落地,很是感谢。然而作为一个研二的学生,整日奔波在公司与学校之间,很是吃不消,所以,国庆以后我将会提交辞职申请,很不舍,但鱼和熊掌不可兼得,在公司了解市场行情之后,我还是想回到学校完成自己学业的同时(主要是论文),将大部分时间用在技术体系学习上,这样完整的时间学习效果更好。
云创大数据,掌门人张总和刘教授,公司的每个人都对教授的智慧和才能佩服有佳,对张总的平易近人甚是喜爱。公司工作氛围非常融洽,公司环境特别整洁,公司技术氛围很纯碎,踏踏实实做事情,没有勾心斗角。公司的几个代表性产品服务器A8000、云存储cStor、数据立方、万物云、大数据实验一体机等等,公司的几乎所有业务围绕着大数据处理和分布式云计算技术展开,涉及地震局、测绘局、公安、企业、教育3.0等多个领域。是软件和硬件一体化的公司,通过完全是自己公司的产品提供完整的解决方案,从服务器机柜、服务器、软件等,全部来自自主研发,这对于100+人的中小型企业困难之大很难想象,但是云创做到了。云创目前的重点关注了教育3.0、云直播和智能硬件领域(一直是强项)。
云创大数据,是我第一个专业实习的公司。当时作为南邮研一的学生,因为之前没去IT企业实习过,还是有点不踏实的。研一伊始就决定,研一的暑假要出去锻炼一下动手能力,因此研一下学期,就抓紧时间写了一篇论文《VKTS:可验证的单关键词文件检索处理方法》,该篇论文7月10号,投稿《软件学报》。在撰写论文期间,便开始关注实习招聘,因为本科就一直关注“刘鹏看未来”这个微信公众号,对刘鹏教授和云创大数据都有些了解,所以当时公司招聘实习生的时候,我也关注到了,于是便开始准备简历,投递。都第一次投递简历是2016年04月19日 13:25 (星期二),当时投给云创大数据的HR(马姐)。周四还没回应,于是2016年04月21日 10:01 (星期四)再次投递。 2016年4月25号,我接到了马姐来电的面试邀请,于2016年4月29日下午参加了云创大数据的面试,给我面试的先后是沈大哥、刘教授、马姐(当时因为杨老板不在,杨老板就没面),很轻松,拿到了面试offer,特别感谢他们给我实习的机会,但是因为学校论文的一些事情,我到了6月28号才报到。
到了公司,首先就是履行一些常规的手续。然后就开始接触实实在在的项目(因为一些保密规定,项目具体细节不写出)。
我第一个负责的内容是《运营商大数据精准广告投放技术方案》,这个主要是合理挖掘用户数据进行精准营销,我在校对数据挖掘很感兴趣,也看过相关的书籍,自己的研究方向是大数据隐私保护相关,也会用到数据挖掘的一些内容,比如分类、聚类,当时查阅了相关的论文和参考了刘鹏《计算广告学》这本书,大概两周时间完成这个技术方案撰写,因为自己有数据挖掘的基础,撰写技术类的方案,技术方面没问题,然后和方案部共同进行修缮。这里要特别说一下,我们公司有自己的迷你书库,并且每个人每年都有购书经费,这项福利我甚是喜欢,并且云创很注重前言的知识,遇到技术性和专业性比较强的项目,刘教授和杨老板总是会强调查阅相关的论文和985、211等著名高校的研究生论文,特别是博士研究生论文,这让我有种在学校做科研的感觉。方案撰写完成后,便开始研究方案中运用到的分类和聚类算法,主要涉及SVM、K-means、谱聚类、逻辑回归等,对于每个数据挖掘算法,我都到github上面找到算法的原型,然后进行改写,因为数据的保密性,此处不再具体讲述。期间除了这些算法,我还在看Hadoop相关技术,看了《Hadoop权威指南(第三版)》、《数据挖掘导论》、《Hadoop技术内幕:深入解析YARN架构设计与实现原理》(没看完),并且期间看了传智播客吴超老师的Hadoop课程。与此同时,经常阅读github上面的源码,因此Maven用的也比较熟悉。
我参加的第二个项目是Sort BenchMark排序比赛,这个项目也是我最认真的一个项目,这样说貌似不太合适,应该说是我付出最多、精力投入最大、个人成长最大的一个项目。之前写过一篇专门写的这个项目,但是貌似没公开,这个比赛,阿里去年拿了冠军,刘教授对排序比赛甚是感兴趣,其在清华求学期间就曾拿过世界排序的一个冠军。但是这个比赛因为一些具体原因,不太适合公开写。这个项目在淮南出差了10几天,主要地点是安徽(淮南)移动数据中心。在此感谢测试组的加军哥(主要负责运维)、存储组的章亮、于阳(提供linux下ext3文件系统文件串联工作)、处理组的锁哥、段兄(锁哥负责通信协议研究,段兄和我负责核心算法),还要感谢自己(主要负责代码撰写和算法,主要是java和shell),最要感谢当然是我们的杨老板给了我这次机会和期间的电话甚至实地指导,作为实习生,能出差负责这么重要的项目,压力与欣慰并存,在淮南的有段时间,我每天从早上9点写代码到凌晨2点、3点睡觉,然后就这样循环一个星期,我的肩颈开始疼痛,但是时间紧张,还是尽量去完成,我从来没把自己当做实习生,用百分之百的努力完成眼下的事情。当然期间我们也有很多欢乐,比如我们每天开车10公里去数据中心的路上、每天中午淮南牛肉汤面、特别是每天晚上都“下馆子”(寿县土菜馆、卲记土菜馆)的情景,当然也有荒地路边的棚子下,满是苍蝇,草草吃一顿的辛酸情景……但是因为最后一些原因,比赛没能成功参加,一部分是硬件的原因(需要3000台服务器,每台服务器配置10块左右的硬盘,最低万兆交换机等等,中国没几个公司拿得出来,成本巨大),当然还有就是自己没有十足的把握(虽然通过努力程序的排序时间复杂度达到O(1),程序通用性等等做的还不错,但是只测试了30多台机器,用了150G的数据,3000台服务器没测试,数据量100T也太大)。因此最后很遗憾,但是中间学到了很多:
一是一个项目的架构是这个项目成功的关键,架构不好,效率根本不可能高;
二是真正意识到算法的重要性,排序真的可以是O(1)的效率(针对具体环境);
三是数学模型的重要性,保证了我们的程序计算模型、数据分发模型、数据接收模型的通用性;
四是程序的底层原理特别重要,比如:多线程、缓冲区;
五是不管自己的身份,态度是最重要的,没有态度,其他诸如能力等都免谈。
最后,我想说的是,这个比赛,虽然对于资本融资、中小型企业发展等特别重要,但是真的不太适合中小企业搞,硬件成本太大。并且没有实际的运行环境,很难保证小数据、小集群环境下的测试效率在大数据、大集群上面适用,实际的测试环境应该在实际的运行环境中测试,并做相应的调整,阿里之所以去年获得冠军,很大一部分原因是阿里像亚马逊一样有自己的云平台,阿里云的发展,离不开服务器的采购,阿里天猫、双十一需要大量的计算和服务器,但是双十一结束,阿里会空余很多闲置的机器(虽然阿里云用部分租给别人,还是会空余很多),这部分机器可以长时间用于sort BenchMark比赛的测试,然而很多中小型企业不具备这样的条件。
第三个我参加的项目就是江苏省地理信息测绘院的历史数据在线化(天地图项目第一阶段)。如果说第二个项目刷新了我的“数据观”,100TB的数据排序(其实就是1万亿条字符串排序),这次的数据算下来一共将近600TB,是其十几年的测绘影像数据和处理后的,文件大小从KB到MB不懂,并且这些数据全部是存储在移动硬盘中,通过excel进行索引,使用起来很不方便,需要将其转储在分布式文件系统中,保证方便性、安全性、可管理等,但是云创最擅长就是做这种大数据量的,公司给其做了cstor存储系统,上的是A8000服务器,用数据立方相关技术解决数据索引问题,java web解决数据和用户交互问题,我在的这段期间,主要参加的是数据落盘和审批流程开发,期间得到了顾焜和汪洲权很多的帮助,很可惜,有可能这部分完不成我就要回学校了,学校的事情这段时间比较多,实在不能同时完成两方面的工作。
很感谢公司给了我实习的机会,除了上述提到的一些同事,还感谢行政部翠姐每次不厌其烦的给自己做请假等工作(实习生假太多)、网络部小创哥给自己忙装电脑、弄网线等,室友孙大哥闲聊中给自己普及资本融资方面知识,室友苏泽月的生活中的帮助,对了我们组8月份拿到了“优秀团队”(http://www.cstor.cn/textdetail_10989.html)。
再次回到校园,国庆假期,大家都回家了,只剩下文采、小白和我,拿起放下三个多月的论文,完全没有了实习前面看论文的那种感觉,还要慢慢培养,继续加油中,fighting……
最后贴几张照片纪念一下这段实习生活……
【实习经历】我在云创大数据的三个月又十天