首页 > 代码库 > 机器学习之模型评估与选择

机器学习之模型评估与选择

2.1 经验误差与过拟合

  基本概念:

    错误率:分类错误数/总样本数

    训练误差/经验误差:学习器在训练集上所产生的误差

    泛化误差:学习器在测试集上产生的误差

2.2 评估方法

  在实际应用中会有多种不同的算法进行选择,对于不同的问题,我们该选择用哪种学习算法和参数配置,是机器学习中的模型选择。无法直接获得泛化误差,训练误差由于过拟合现象的存在也不适合作为标准,我们如何对模型进行评估和选择。

  从训练集中随机获取测试集,测试集和训练集互斥。通过对D进行适当的处理,从中产生出训练集S和测试集T,下面介绍几种常见的做法。

  2.1 留出法 (2/3~4/5)

    注意:避免由于数据划分过程引入额外的偏差二造成对结果的影响

    方法:分层采样(针对不同的类别分别进行采样)

       若干次的随机重复划分进行评估,取平均值。

  2.2 交叉验证法(10次10折)

    方法:将数据集划分为k个大小相似的互斥子集,然后用k-1作为训练集,剩下一个作为测试集

    注意:10次随机重新采样

  2.3 自助法

    方法:有放回的进行抽取样本数量个大小

    注意:自助法产生的数据改变了初始数据集的分布,这就引入估计偏差,因此在初始数据量足够时,留出法和交叉验证呢法更加常用些。

2.3 性能度量

  衡量模型的泛化能力,就是性能度量。在对比不同模型的能力时,使用不同的性能度量往往会导致不同的评判结果。好坏是相对的,不仅取决于算法和数据同时还取决任务需求。

  错误率:分类错误的样本占总体样本。

  查全率(recall):判断正例,占所有正例

  查准率(precision):判断为正例中,判断正确占比

技术分享

技术分享

  P-R曲线(面积)

    根据学习的预测结果对样例进行排序,排在最前面的学习器是“最可能”为正例样本,排在后面是学习器认为“最不可能的”,按顺序作为正例进行预测,计算precision 和 recall,并作为横坐标和纵坐标,显示出对应的P-R图。

  利用平衡点(Break-Even Point, BEP)进行比较,获取方式为和直线y=x和P-R曲线的交点。

  F1:基于查准率和查全率的调和平均:

技术分享

  FB:表达对查全率和查准率不同偏好的度量:

技术分享

  对上述评估方法(留存法,交叉验证法,)我能能够得到多个混淆矩阵。通常有两种做法一种是“宏F1”对各个混淆矩阵求解后整体求平均。另一个是“微F1”先对混淆矩阵求平均然后再计算F1的值。

  ROC和AUC

  ROC(Receiver Operating Characteristic)“受试者工作特征”

 

机器学习之模型评估与选择