首页 > 代码库 > 统计学习方法 笔记<第一章>

统计学习方法 笔记<第一章>

第一章 统计学习方法概述

1.1 统计学习

  统计学习(statistical learning)是关于计算机基于数据概率模型并运用模型进行预测和分析的学科。统计学习也称为统计机器学习,现在人们提及的机器学习一般都是指统计机器学习。

  统计学习的对象是数据(data),关于数据的基本假设是同类数据具有一定的统计规律性(前提):比如可以用随机变量描述数据中的特征,用概率分布描述数据的统计规律等。

  统计学习的目的:对现有的数据进行分析,构建概率统计模型,分析和预测未知新数据,同时也需要考虑模型的复杂度以及学习模型的效率等等。

  统计学习方法:监督学习(supervised learning),非监督学习(unsupervised learning),半监督学习(semi-supervised learning)以及强化学习(reinforcement learning)等组成。

  统计学习方法包括模型的假设空间,模型选择的准则以及模型学习的算法,称为统计学习的三要素,简称为模型(model),策略(strategy)和算法(algorithm)。

1.2 监督学习

  是本书主要讨论的重点,是统计学习中内容最丰富,应用最广泛的部分。

  监督学习的部分可简单的视为将输入向量输入模型,从而得到输出向量,输入向量属于输入空间,有时也将输入向量映射为特征向量(feature vector),有时也假设输入空间与特征空间为相同空间。

  考虑输入变量与输出变量为离散的或是连续的,对预测任务给予不同的名称:

输入->输出预测任务名称
连续->连续回归问题
连续->离散,离散->离散分类问题
离散->离散标注问题  

 

 

 

 

  监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y),训练数据被看做是依联合概率独立同分布产生的。遵循联合概率分布的假设是监督学习关于数据的基本假设。监督学习的模型可以是概率模型(由条件概率分布P(Y|X)表示)或非概率模型(决策函数(decision function)Y=f(X))。

1.3 统计学习三要素

  方法 = 模型 + 策略 + 算法

  1.3.1 模型:根据要学习的是联合概率分布(或条件概率分布)还是决策函数,分为概率模型和非概率模型。

  1.3.2 策略:值按照何种标准学习或选择选择最优模型。

    评定预测值与真实值之间的差别,用一个损失函数(loss function)来度量预测错误的程度,记为L(Y,f(X))。常用的损失函数有:0-1损失函数(0-1 loss function 如分类正确为0,错误为1);平方损失函数(quadratic loss function 差值的平方);绝对损失函数(absolute loss function 绝对值);对数损失函数(logarithmic loss function)等。损失函数越小,模型就越好(mark 不考虑overfitting?)

  经验风险最小化(empirical risk minimization, ERM):即求解损失函数最小化:

  

当模型是条件概率分布,损失函数式对数损失函数时,ERM等价于极大似然估计(maximum likelihood estimation)。

  结构风险最小化(structural risk minimization, SRM):当样本容量很小时,容易产生过拟合(overfitting)问题,SRM就是为了防止过拟合。SRM等价于正则化(regularization)(mark)。SRM就是在ERM的基础上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term):

  

即需要满足经验风险和模型复杂度同时小。当模型是条件概率分布,损失函数时对数损失函数,模型复杂度由模型的先验概率表示时,SRM就是贝叶斯估计中的最大后验概率估计(maximum posterior probability estimation, MAP)。

  1.3.3 算法:学习模型所用的方法(暂时没什么好写的)

1.4 模型评估与模型选择

  模型的选择时需要做到对已知数据有较好的拟合能力,同时对未知数据有较好的预测能力。即要做到经验风险小且防止过拟合。

(M=0,1数据拟合效果差,M=9过拟合,M=3是较好的预测模型,M表示多项式的最高次数)

   

1.5 正则化与交叉验证

  结构风险 = 经验风险 + 正则化

  正则化:结构风险中的罚项,可以选择参数向量的L1范数,参数向量的L2范数等。

  正则化的作用是选择经验风险和结构风险同时较小的模型。

  正则化符合奥卡姆剃刀定律(Occam‘s Razor, Ockham‘sRazor):能够较好的解释已知数据且较为简单的模型才是好的模型。

  数据集常被切分为三个部分:训练集(training set),验证集(validation set)和测试集(test set),分别用户训练模型,模型的选择以及模型的评估。但在数据不充足的前提下,再切分数据明显是不科学的。因此引入交叉验证的方法,交叉验证分为:

  简单交叉验证:将数据集简单切分为训练集和测试集两部分

  S折交叉验证:将数据集切分为S个大小相同的子集,选择S-1个子集训练模型,剩下的一个子集测试模型;重复S次后再选取。

  留一交叉验证:用于数据缺乏的情况下。是S折交叉验证的特殊情形S=N。

1.6 泛化能力

(mark) 这一部分感觉暂时没什么用,就先不写了。

1.7 生成模型与判别模型(mark 这部分之后再细讲)

  生成方法(generative approach)学到的模型称为生成模型(generative model),由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型,即P(Y|X)=P(X,Y)/P(X),典型的生成模型有朴素贝叶斯模型隐马尔可夫模型

  判别方法(discriminative approach)学到的模型称为判别模型(discriminative model),由数据直接学习决策函数f(X)或条件概率分布P(Y|X),典型的判别模型包括:k近邻算法感知机决策树逻辑斯谛回归模型最大熵模型支持向量机提升方法条件随机场等。

  当存在隐变量时,仍可用生成方法学习,此时判别方法就不能用了(mark why?)

1.8 分类问题

  分类模型是一个分类器(classifier),学习分类模型即学习分类器。

  评价分类器性能的指标一般为分类准确率(accuracy),即正确分类样本占总样本的比率。

  对于二分类问题常用的指标是精确率(precision)和召回率(recall),F1值表示精确率和召回率的调和平均。

  可用于分类的统计学习方法包括:k近邻,感知机,朴素贝叶斯,决策树,决策列表,逻辑斯谛回归模型,支持向量机,提升方法,贝叶斯网络,神经网络,winnow等。

1.9 标注问题(mark 暂时放一下)

  标注(tagging)是分类问题的推广。

1.10 回归问题

  回归(regression)用于预测输入变量和输出变量之间的关系,即选择输入变量到输出变量间的映射函数,等价于函数拟合,选择函数曲线拟合已知数据且很好的预测未知数据。

  按照输入变量的个数,分为一元回归和二元回归;按照模型类型,分为线性回归和非线性回归。

 

  总结:这是对统计学习的一章概要,主要是了解而不是理解,既然要深入学习统计,感觉先纵观一下也是十分必要的,这一部分也有一些还不太理解的地方,毕竟只是大体看了一下,感觉在具体学习统计方法的时候,再逐步回头看这些东西的话,应该会有更加深入的理解。

  本书中介绍的统计学习方法:感知机,k近邻法,朴素贝叶斯,决策树,逻辑斯谛回归与最大熵模型,支持向量机,提升方法,EM算法,隐马尔可夫模型和条件随机场

 

 

统计学习方法 笔记<第一章>