首页 > 代码库 > 统计学习第五章

统计学习第五章

统计学习方法第五章

决策树的剪枝

决策树的剪枝方法是用极小化损失函数来计算的

 

 

 

 

对于此题的解释是C(T)是模型对于训练数据的预测误差,|T|表示模型的复杂程度(在前面讲树T的叶节点的个数为|T|)

 

是先决定呢还是模型先决定呢?由下面的话

 

可知先决定,是自己输入的,(由下面的算法可以知道)他的值的大小是怎样确定的呢?值的不同是会影响算法的预测正确率的,有没有专门的算法对其进行分析呢由哪些因素决定呢

 

 

CART算法(分类与回归树 classification and regression tree)

CART决策树是二叉树,是给定P(Y|X)的学习方法

 

 

什么是启发式方法

最小二乘回归树(最小二乘是指的是使得误差的平方之和达到最小值称为最小二乘)在CATR中承担的是什么作用呢

其中x是输入变量,y是输出变量,是连续变量,相当于将连续输出的变量转化为离散值,这样的目的是什么呢?

 

S称为切分点

 

 

相当于内层循环找对于每个j的最佳的切分点s,然后外层循环根据最小二乘找到最小的二乘的j

 

分类树的生成用基尼指数选择最优特征(基尼指数是什么?都用作什么用途)

对于单个一个点

 

那对于一个集合呢

 

为什么基尼指数表示的是不确定性呢

 

统计学习第五章