决策树

首页 > 代码库 > 决策树

2024-10-25 14:54:02 206人阅读

决策树是应用最广的归纳推理算法之中的一个，它是一种逼近离散函数方法，对噪声数据有非常好的鲁棒性，可以学习析取表达式，广为应用的算法有ID3，ASSISTANT和C4.5。

通常决策树代表实例属性值约束的合取（conjunction）的析取式（disjunction）。树根到树叶的每一条路径相应一组属性測试的合取，而整棵树是这些合取的析取。

主要的ID3算法是通过自顶向下构造决策树进行学习的。首先考虑的问题是哪一个属性将在树的根节点測试。为解决这一问题，使用统计測试来确定每个实例属性单独分类训练样本的能力。将分类能力最好的属性作为树的跟节点，之后根节点属性的每个可能值会产生一个分支，然后把训练例子排列到适当的分支下，反复整个过程，用每个分支结点关联的训练样本来选择最佳属性。这是对合格决策树的贪婪搜索，也就是说算法从不回溯又一次考虑曾经的选择。

那么，怎样确定哪一个属性具有最佳分类能力呢？衡量属性价值的好的定量标准是什么？我们使用“信息增益（information gain）”来作为衡量标准。用来衡量属性分类样本的能力。ID3算法在增长树的每一步使用这个标准来选择最佳分类的属性。

为精确定义信息增益。我们先定义信息论中广泛使用的一个度量标准——熵（entropy），它刻画了随意样本集的纯度。

给定包括关于某个目标概念的正反样本的样本集S <script id="MathJax-Element-54" type="math/tex">S</script> 。那么S <script id="MathJax-Element-55" type="math/tex">

决策树

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 决策树

决策树

看完仍有疑问？有类似问题直接问程序猿