首页 > 代码库 > 研一总结及研二规划

研一总结及研二规划

        经历了大学的四年,经历了考研,又走过了研一一年,迎来了新的困惑。回顾研一一年,自己收获颇多,除了上课之外,导师让自己探索了好几个方向,分别是(1)数据库和数据仓库,以Microsoft SQL Server 2008为主线。(2)分布式存储与分布式计算,以Hadoop生态系统为主线。(3)数据挖掘,以Weka为主线。(4)推荐系统,以Taste为主线。(5)社交网络,以Ucinet为主线。(6)机器学习,以Scikit-Learn和Mahout为主线。(7)搜索引擎,以Lucene,Nutch和solr为主线。(8)众包理论,以AMT(Amazon Mechanical Turk)为主线。(9)主题模型,以LSA,PLSA和LDA为主线。研一一年自己还读了很多关于推荐系统,社交网络方面的论文,尤其是关于主题模型,时间模型和信任模型等。

        总之,研一一年基本是上课,读论文,探索自己喜欢的方向。在探索的过程中,自己学会了如何去搜索资料,如何去解决一个问题,我想这才是自己最大的收获。比如,为了弄懂主题模型,自己学习了数据挖掘,机器学习,搜索引擎,自然语言处理,模式识别,人工智能,图形图像,机器视觉,并行计算,还有数学分析,高等代数,概率论,统计学,信息论,随机过程,离散数学,具体数学,时间序列分析等。

        时间过的真快,一转眼一年过去了,暑假之后,自己马上就要研二了。这就意味着(1)自己不能再继续探索自己喜欢的方向了。(2)自己要写论文了,因为没有论文是不能毕业答辩的。(3)自己也将要找工作了,需要深入学习一个方向。(4)自己也将要出去实习了,为步入社会做好思想准备和技术准备。

        现在,自己面临最大的问题就是找到一个自己喜欢的方向,然后展开深入地学习。因为,这个问题关乎着自己今后一年的前进方向,是方向性的问题。经过长时间的思考以及自己自身的情况,自己决定主攻分布式机器学习。具体规划,如下所示:

一、工作准备

1、重点学习Mahout。

说明:

机器学习是一个非常复杂的问题,绝对不是仅仅掌握几个工具就可以搞定的,因为机器学习是以数学为基础的,数学不好,是绝对不行的。但是,考虑到实际情况,自己也只能一边学习分布式机器学习,一边打基础了。

2、学习Hadoop生态系统,还有Spark等大数据处理工具。

3、熟练C,Java和Python编程。

4、学习数据结构和算法。

5、熟练操作MySQL,尤其是存储过程。

说明:

所有学习均以代码为主线来展开,以上内容务必熟练操作。


二、专业理论

1、数据挖掘,机器学习

说明:以学习Scikit-Learn为主线。

2、统计学

说明:以学习SPSS为主线。

3、并行计算

说明:以MPICH2和MapReduce为主线。


三、基础理论

1、离散数学

2、概率论

3、随机过程

4、时间序列分析

说明:以Matlab和R为主线。


       虽然自己主攻分布式机器学习,但是自己今后从事什么样的工作并不确定。无论从事什么样的工作,都应该熟练掌握至少一种编程语言(Java和Python),一个数据库(MySQL),一个平台(Hadoop等),几种常用工具(SPSS,Matlab和R),打牢数据结构和算法(C)。考虑到自己的实际情况,还要求掌握并行计算(MPICH2和MapReduce)。

       总之,研二一年的学习战略是深度学习,重视学习的深度,掌握的熟练程度。