数据分析算法

决策树用于对数据集中的记录进行分类。

假设每条记录都含有若干条属性，决策树根据属性进行分类。

ID3算法

如何决定选取哪条属性来进行划分？判断条件是根据该属性划分后数据集的信息熵最小（信息熵越小表明数据越整齐）,也就是熵差值最大。

假设A属性共有n个取值，按照A划分后将获得n个分支，每个分支里的子数据集都删除了A属性。

递归地对分支里的数据集实施划分。最终达到不可分或者所有数据都是相同值为止。

这将生成一颗决策树。利用决策树的叶子节点进行分类

c4.5算法

ID3的扩展，区别：
1.选取划分属性时比较的是熵差值/分裂度
2.c4.5运用了剪枝算法，减少噪点数据造成的过适应

http://blog.csdn.net/xuxurui007/article/details/18045943
http://blog.csdn.net/zjd950131/article/details/8027081

根据数据集的属性和每条记录的类别，判断新数据的类型。

计算数据点之间的距离，取最近的K个点中最多的类型作为新数据点的预测类型。
计算距离的方法distance = sqrt(delta(attributeX)**2 + delta(attributeY)**2 + delta(attributeX)**2 +...)

(待续)

数据分析算法

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们