首页 > 代码库 > 数据分析算法

数据分析算法

数据分析算法

决策树

决策树用于对数据集中的记录进行分类。

假设每条记录都含有若干条属性,决策树根据属性进行分类。

ID3算法

如何决定选取哪条属性来进行划分? 判断条件是根据该属性划分后数据集的信息熵最小(信息熵越小表明数据越整齐),也就是熵差值最大。

假设A属性共有n个取值,按照A划分后将获得n个分支,每个分支里的子数据集都删除了A属性。

递归地对分支里的数据集实施划分。最终达到不可分或者所有数据都是相同值为止。

这将生成一颗决策树。利用决策树的叶子节点进行分类

c4.5算法

ID3的扩展,区别:
1.选取划分属性时比较的是 熵差值/分裂度
2.c4.5运用了剪枝算法,减少噪点数据造成的过适应

http://blog.csdn.net/xuxurui007/article/details/18045943
http://blog.csdn.net/zjd950131/article/details/8027081

KNN

根据数据集的属性和每条记录的类别,判断新数据的类型。

计算数据点之间的距离,取最近的K个点中最多的类型作为新数据点的预测类型。
计算距离的方法distance = sqrt(delta(attributeX)**2 + delta(attributeY)**2 + delta(attributeX)**2 +...)

朴素贝叶斯(naive Bayes)

 

(待续)

数据分析算法