统计学习方法-李航第一章

2024-10-31 22:10:39 211人阅读

第一章统计学习方法概论

学习：如果一个系统能够通过执行某个过程改进它的性能，这就是学习

监督学习：从训练数据集中学习模型，对测试数据进行预测

回归问题：输入变量与输出变量均为连续变量的预测问题

分类问题：输出变量为有限个离散变量的预测问题

标注问题：输入变量与输出变量均为变量序列的预测问题

损失函数：度量预测错误的程度

经验风险：训练数据集的平均损失

期望风险：损失函数的期望值

根据大数定律，当样本容量N趋于无穷时，经验风险趋于期望风险

泛化能力：指由该方法学习到的模型对未知数据的预测能力

过拟合：指学习时选择的模型所包含的参数过多，以致于出现这一模型对已知数据预测得很好，但对未知数据预测得很差的现象

如果训练数据本身存在噪声，拟合曲线对未知数据的预测能力并不好

模型选择时，不仅要考虑对已知数据的预测能力，而且要考虑对未知数据的预测能力

正则化：在经验风险上加一个正则化项或罚项

奥卡姆剃刀原理：在所有可能选择的模型中，能够很好地解释已知数据并且十分简单才是最好的模型，也是应该选择的模型

交叉验证：首先随机地将已知数据切分为S个互不相交的大小相同的子集；然后利用S-1个子集的数据训练模型，利用余下的子集测试数据；

将这一过程对可能的S种选择重复进行，最后选出S次测评中平均测试误差最小的模型。

TP：将正类预测为正类数

FN：将正类预测为负类数

FP：将负类预测为正类数

TN：将负类预测为负类数

精确率：P=TP/(TP+FP)

召回率：R=TP/(TP+FN)

2/F1=1/P + 1/R

伯努利模型：定义在取值为0和1的随机变量上的概率分布。

假设观测到伯努利模型n次独立的数据生成结果，其中k次的结果为1，这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。

统计学习方法-李航第一章

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们