首页 > 代码库 > 对数据方向的一些感慨

对数据方向的一些感慨

本来以为可以将《实战机器学习》的代码全部实现完,殊不知到了支持向量机这一章,仅是为了理清概念,我找出高数线代概统重识拉格朗日乘数、向量空间、最小二乘法,为了理解非线性情况时用到的核技术去查阅曼瑟定理,概念不清算法无法实现,结果博客一直拖着无法更新,而我也慢慢反思向数据方向转变的目的:是为了什么而选择这个方向?

如果是技术,实战中几乎不会有从头实现OCR算法之类的要求,众多的第三方包可以轻易满足需要,对计算结论有基本的认识,过程不是主要的。

如果是业务背景,那就不是技术一家独大的状况了,我要做的,便是“数据分析”与“业务决策”这两座岛屿之间的桥梁,行业背景、统计学、计算机科学均要有所涉猎,而第一项积累起来是最花功夫的。

鉴于我的计科本专业与开发工作背景,自然是先从理论与工具上发力,目前市面上R的书籍大多是讲授如何画图与使用算法包,然后就是实际应用,必要原理很少提到(其实这些算法借助画图讲解,其核心原理也不算繁琐,当然是在数学底子还有一些并且有为了一个定理翻5本书的耐心的前提下),讲如何开发R包的几乎没有。而且R不仅要保存代码文件,还包括命令行历史记录与变量环境等,目前的IDE对其支持都太少。目前准备将R作为战略储备看待,毕竟一门专为数据而生的语言,其行业方面的积累是Python不能比的。Python作为更加系统的语言,能有的解决方案包都有,IDE也不算问题,市面上相关的书籍讲到数据方面的正日渐增多。目前准备将Python作为主要发力方向。

简洁规划,数据操作最频繁的就是数值计算与画图,前者要花功夫熟悉理论使用各种包(pandas scikit 等等),后者就是包的使用了(matplotlib highcharts 等等)

各行业都有海量数据,如何选择就看深入程度吧,金融业、制造业、气象、GIS……选择了一个就坚持深入下去吧,要适合就得磨合。