首页 > 代码库 > 数据挖掘里的“降维”----从五阶魔方的玩法思考
数据挖掘里的“降维”----从五阶魔方的玩法思考
上一周去听了宫老师的K-NN,及神经网络的算法课程。这一周本来准备深入研究一下,回来后,看到同事桌上的魔方,就开始还原了起来。实际上,从魔方的角度来思考我们数据挖掘里的一些算法,发现,另有一番收获。
先说魔方,实际上,从三阶往上来说,无论是四阶,五阶还是更高。其中的口诀很多,但是最根本的思想就是“降维”。就是把更高阶的魔方降到我们熟悉的低阶魔方,然后按照我们曾经的熟悉的方法来还原的。而对于数据挖掘,好像也是这样。魔方从高阶降维到三阶需要很长时间,而我们所需要挖掘的数据开始的数据准备及数据理解也是需要很大量的工作的。而所要建立的模型大部分就类似于我们经常玩的“三阶魔方”。把我们加工好的数据放入“三阶模型”里,就可以套用相应的算法公式来进行相应的分类。实际上,这两者有许多共同之处。
K-NN,K-MEANS这两个算法都是以K为中心值然后通过计算周围数值的平均值,来均方差来估算最大的可能。这一方面有点类似于我们如何在魔方中以一面的中心点开始如何先将一面还原,继而再去还原其他的面。里边的数学公式的推导是很繁杂。但是我们只要掌握住算法是做什么的,知道个大概就能够从原始的数据中找到那个相应的K值。
我们在用数学统计里很多的模型是要用到三维的向量空间坐标系,而我们实际的数据里有许多的维度。如何能够在我们图中来分出相应的参数,找到相应的坐标点,这是很重要的。比如说,在我们统计数据里,有省份,性别,投资类别这样的字符型数据,在三维的坐标中,也许我们用数值来表示更容易区分,而这里如何用数值来表达就很重要!性别好说,男可以为1,女可以为0,而省份,投资类别这因的数据,我们是人为指定1表示上海,2表示北京........这些的指定就不好说了。首先,人为指定有些麻烦,更况且这些指标是否影响到挖掘结果。这个我们无从得知!
再反过来看魔方的玩法,在高阶中(如五阶),在中心6面对齐的前提下,通过先对齐棱的方法,使其“降维”为三阶魔方。我们是否也可以用这样的思想,先将这些数值型字符归成大类,然后再在我们三维坐标上标出其实际坐标点,再去分析。
数据挖掘里,一直强调的是挖掘思维,而不是挖掘算法。但是挖掘算法又是我们无法避开的环节,有时也在想,对于一个不懂统计的人来说,如何来理解这些算法,也许并不那么重要,重要的是我们要如何去使用。在网站挖掘项目中,我们在统计用户的上网行为的时候,总是会有许多的参数来供我们分析,这些许多的参数就像那些高阶魔方一样,我们如何将之“降维”为我们所熟悉的三阶魔方,然后对我们的用户进行相应分类。这样,也许是网站运营最为关系的。
从营销的角度来思考我们挖掘算法,大道至简,用简单的方法去挖掘出我们要有的目标客户,进而有相关的精准营销。也许这才是我们数据挖掘的根本意义。这样,也便于向决策层讲明我们的技术实现过程。
本文出自 “数据挖掘与可视化” 博客,转载请与作者联系!