首页 > 代码库 > 决策树

决策树

 

 

ID3采用的信息增益度量存在一个内在偏置,它优先选择有较多属性值的Feature,因为属性值多的Feature会有相对较大的信息增益?(信息增益反映的给定一个条件以后不确定性减少的程度,必然是分得越细的数据集确定性更高,也就是条件熵越小,信息增益越大).避免这个不足的一个度量就是不用信息增益来选择Feature,而是用信息增益比率(gain ratio),增益比率通过引入一个被称作分裂信息(Split information)的项来惩罚取值较多的Feature,分裂信息用来衡量Feature分裂数据的广度和均匀性:

另外ID3只能处理离散型数据

 技术分享

 

其中,对数据不需要任何加工指的是对缺失值的处理

 

技术分享

 

 

 

 

 

 

 

 

 

决策树