决策树学习（ID3）

首页 > 代码库 > 决策树学习（ID3）

2024-07-06 09:14:10 229人阅读

参考：《机器学习实战》
优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特
征数据。
缺点：可能会产生过度匹配问题。
适用数据类型：数值型和标称型。
创建分支的伪代码（createBranch)：

图1

1、信息熵：

图1中划分数据集的原则是：将无序的数据变得有序。在划分数据集之前之后信息发生的变化称为信息增益，划分数据集获得的信息增益最高的特征就是最好的选择。（书中对为什么用最大信息熵作为度量的原因并作解释）。
信息的定义：
熵：
在Python中对数据集的某个特征求熵比较容易：首先用字典统计该特征所有出现的值，然后可以求出对应的概率，然后由熵公式便可求出熵。

2、数据集的划分

选择最好的数据集划分方式：对数据集的每个特征求信息熵，熵取最大的特征即为在按该特征划分数据时最好。

3、创建树:

创建树的停止条件：子集长度达到最小值1或者只有一个特征了。在Python中可以用字典来保存树。创建过程：
代码细节：
所有分类得到的各个子集，按照分类时特征的值存入一个字典中，而该字典的父字典又是不同子集划分的结果。这样一层层嵌套形成一个决策字典树。在上面字典树创立过程中要注意的一点是，每多分一级字典，在数据子集中就要将上一级字典的标签删除，以免下级字典建立过程中重复划分。同时还要注意程序中：subLabels=labels[:],这一语句的作用是复制labels的剩余部分。之所以这样，是因为labels为列表，在python中列表是引用的数据类型，对其值在子函数中进行改变，则所有的labels都将会改变，而且即使用形如subLabels=labels的方式，在子函数中改变subLabels时，labels也会跟着改变。

4、绘制树图

使用matplotlib提供的注解功能画树图。

#-*- coding:cp936 -*-
#===============================================================================
# 使用文本注解绘制树节点
#===============================================================================
import matplotlib.pyplot as plt
decisionNode = dict(boxstyle = ‘sawtooth‘, fc = ‘0.8‘)
leafNode = dict(boxstyle = ‘round4‘, fc = ‘0.8‘)
arrow_args = dict(arrowstyle = ‘<-‘)

def plotNode(nodeTxt, centerPt, parentPt, nodeType):
    createPlot.ax1.annotate(nodeTxt, xy = parentPt, xycoords = ‘axes fraction‘,                            xytext = centerPt, ha = ‘center‘, bbox = nodeType,                            arrowprops = arrow_args)
def createPlot():
    fig = plt.figure(1, facecolor=‘white‘)
    fig.clf()
    createPlot.ax1 = plt.subplot(111, frameon = False)
    plotNode(‘a decision node‘, (0.5,0.1), (0.1,0.5), decisionNode)
    plotNode(‘a leaf node‘, (0.8,0.1), (0.3,0.8), leafNode)
    plt.show()
createPlot()

上面的代码得到的注释图：

5、使用决策树执行分类

递归地比较测试数据各特征与决策树上的数值，直到进入叶子节点，最后将测试数据定义为叶子节点所属类型。

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 决策树学习（ID3）

决策树学习（ID3）

看完仍有疑问？有类似问题直接问程序猿