【基础知识八】集成学习

2024-11-25 06:08:40 203人阅读

难点：如何产生“好而不同”的个体学习器；“好而不同”：“准确性”和“多样性”

一、个体与集成

构建并结合多个学习器来完成学习任务

集成：结果通过投票法voting产生，“少数服从多数”

获得整体性能提升要求个体学习器：好而不同

1）个体学习器有一定的“准确性”

2）学习器间具有差异

集成学习的错误率：

技术分享

假设基学习器的误差相互独立，随着集成中个体分类器数目T的增大，集成的错误率将指数级下降，最终趋向于零

事实上，个体学习器是为了解决同一个问题训练出来的，它们不可能相互独立

集成学习方法大致分两大类：

个体学习器之间存在强依赖关系：代表是Boosting

个体之间不存在强依赖关系：代表是Bagging和“随机森林”

二、Bagging

bootstrap sampling产生T个训练样本的采样集，基于每个采样集训练处一个基学习器

随机森林是Bagging的一个扩展变体

在以决策树为基学习器构建Bagging集成的基础上，进一步在决策树的训练过程中引入随机属性选择

三、结合策略

数值型输出：

1. 简单平均法

2. 加权平均法

标记分类：

1.绝对多数投票法

2.相对多数投票法

3. 加权投票法

学习法

四、多样性

1. 多样性度量

通常，考虑个体分类器的两两相似/不相似性：

不合度量