首页 > 代码库 > 机器学习的基本概念理解
机器学习的基本概念理解
术语理解
示例:
对应着数据中的一条记录(多条记录构成数据集)。可以包含标记,也可以不包含标记。
假设一条记录有多个属性构成的,则这条记录就有5维。多个属性构成的空间叫做属性空间,样本空间(示例也可以叫做样本)或者输入空间。每个属性都有多个属性取值,则每条记录都能够在输入空间中找到唯一的一个点与之对应,我们称这个点为一个坐标向量,因此我们也把一个示例称为一个特征向量。
样例:
拥有标记信息的示例,则称为样例。
模型:
对训练集(x1,y1),(x2,y2)....(xm,ym)进行学习,建立一个从输入空间x到输出空间y的映射f:x能够推 y,言下之意就是能够根据记录的属性数推测出记录的标签。也就是所谓的输入空间x推导出输出空间y的f。
预测:
对测试集(xm+1,ym+1),(xm+2,ym+2),...(xm+n,ym+n),进行测试,根据输入空间x推导出输出空间y与示例的实际y值进行对比的过程。
泛化:
模型适用于新样本的能力,称为泛化能力(泛化能力有强弱之分)。
假设空间:
每个样例它有多个属性,每个属性有多个取值,这些取值之间的组合就构成了假设空间。我们的目的就是对这个空间进行搜索,从一般到特殊,或是自底向上,从特殊到一般,搜索过程中可以不断删除与正例不一致的假设,和(与)反例一致的假设。最终将会获得与训练集一致的假设,这就是我们学得到的结果,即模型。也就是说假设空间,我们学的模型,可能有多个,这个怎么办呢?选择哪个好了。
归纳偏好:在假设空间学到的模型有多个,每个模型在面对新样本的时候会产生不同的输出,机器学习对某种模型的偏好,称之为归纳偏好。
2.模型评估
错误率:如果在m个样本中有a个样本分类错误,则错误率为E=a/m
精度:1-E
泛化误差:我们把模型用于新样本上产生的误差,称为泛化误差。
欠拟合:对于训练集学习太差,泛化能力很弱,欠拟合问题容易解决。
过拟合:对于训练集学习太好,泛化能力很弱,过拟合很难解决。
泛化误差的衡量:需要一个测试集来测试学习器对新样本的判别能力,然后以测试集上的测试误差,作为泛化误差的近似。
测试集的选取有一定的标准。
留出法:直接将数据集D,划分成训练集S和测试集T,分层采样,训练集中有多少是正样本的比例,多少负样本的比例,则测试集中就应该有多少个。一般来说,即便给定训练集合测试集的样本比例后,不同的数据划分,也会造成结果的差异。例如500个正例中,有350个为训练集正例,150个为测试集正例,那么到底以这500个中,那些正例划分为350个呢,不同的划分方法结果也会不一样,怎么办呢?一般采用随机划分,重复进行试验评估后,去平均值做为留出法的评估结果。我们规定一般留出法的比例为2/3到4/5用于训练,剩余的用作测试。
留一法:就留一个做为测试,其他的都做为训练。
交叉验证法:将数据集划分为K个大小相似的互斥子集,都是通过分层采样,以前k-1个作为训练,第k个作为测试,测试算出第一次结果,在以k-2和最后一个k作为训练,以第k-1个作为测试集,算出第二次结果。....以此类推,多次算出之后,取其平均值。
自助法:从数据集中D,抽一个放入D’中,然后在放回D中,在继续抽一个放入D‘中,抽取m个,这个对集成学习等方法会有很大的好处。(利于集成分类器的之间的差异性)
调参与最终模型:大多数学习算法,都有些参数需要设定,参数配置不同,学得模型的性能往往有差别。
性能度量:
对回归任务来说,最常用的性能度量是均方误差。
错误率:不必多说,前面有
精度:不必多说,前面有
分类结果的混淆矩阵:TP+FP+TN+FN=测试样本数。TP+FP=你认为的正例个数,TP是实际的正例个数。
FN+TN=你认为的反例个数,TN=实际反例个数。
查准率: 实际的正例个数TP/你认为的正例个数
查全率:实际的正例个数TP/你认为的实际的正例个数+实际的反例个数
本文出自 “简答生活” 博客,谢绝转载!
机器学习的基本概念理解