机器学习的基本概念理解

首页 > 代码库 > 机器学习的基本概念理解

机器学习的基本概念理解

2024-09-27 01:44:01 216人阅读

术语理解
示例:

对应着数据中的一条记录（多条记录构成数据集)。可以包含标记，也可以不包含标记。

假设一条记录有多个属性构成的，则这条记录就有5维。多个属性构成的空间叫做属性空间，样本空间（示例也可以叫做样本）或者输入空间。每个属性都有多个属性取值，则每条记录都能够在输入空间中找到唯一的一个点与之对应，我们称这个点为一个坐标向量，因此我们也把一个示例称为一个特征向量。

样例：

拥有标记信息的示例，则称为样例。

模型：

对训练集(x1,y1),(x2,y2)....(xm,ym)进行学习，建立一个从输入空间x到输出空间y的映射f:x能够推 y，言下之意就是能够根据记录的属性数推测出记录的标签。也就是所谓的输入空间x推导出输出空间y的f。

预测：

对测试集(xm+1,ym+1),(xm+2,ym+2),...(xm+n,ym+n)，进行测试，根据输入空间x推导出输出空间y与示例的实际y值进行对比的过程。

泛化：

模型适用于新样本的能力，称为泛化能力（泛化能力有强弱之分）。

假设空间：

每个样例它有多个属性，每个属性有多个取值，这些取值之间的组合就构成了假设空间。我们的目的就是对这个空间进行搜索，从一般到特殊，或是自底向上，从特殊到一般，搜索过程中可以不断删除与正例不一致的假设，和(与）反例一致的假设。最终将会获得与训练集一致的假设，这就是我们学得到的结果，即模型。也就是说假设空间，我们学的模型，可能有多个，这个怎么办呢？选择哪个好了。

归纳偏好：在假设空间学到的模型有多个，每个模型在面对新样本的时候会产生不同的输出，机器学习对某种模型的偏好，称之为归纳偏好。

2.模型评估

错误率：如果在m个样本中有a个样本分类错误，则错误率为E=a/m

精度:1-E

泛化误差：我们把模型用于新样本上产生的误差，称为泛化误差。

欠拟合：对于训练集学习太差，泛化能力很弱，欠拟合问题容易解决。

过拟合：对于训练集学习太好，泛化能力很弱，过拟合很难解决。

泛化误差的衡量：需要一个测试集来测试学习器对新样本的判别能力，然后以测试集上的测试误差，作为泛化误差的近似。

测试集的选取有一定的标准。

留出法：直接将数据集D，划分成训练集S和测试集T，分层采样，训练集中有多少是正样本的比例，多少负样本的比例，则测试集中就应该有多少个。一般来说，即便给定训练集合测试集的样本比例后，不同的数据划分，也会造成结果的差异。例如500个正例中，有350个为训练集正例，150个为测试集正例，那么到底以这500个中，那些正例划分为350个呢，不同的划分方法结果也会不一样，怎么办呢？一般采用随机划分，重复进行试验评估后，去平均值做为留出法的评估结果。我们规定一般留出法的比例为2/3到4/5用于训练，剩余的用作测试。

留一法：就留一个做为测试，其他的都做为训练。

交叉验证法：将数据集划分为K个大小相似的互斥子集，都是通过分层采样，以前k-1个作为训练，第k个作为测试，测试算出第一次结果，在以k-2和最后一个k作为训练，以第k-1个作为测试集，算出第二次结果。....以此类推，多次算出之后，取其平均值。

自助法：从数据集中D，抽一个放入D’中，然后在放回D中，在继续抽一个放入D‘中，抽取m个，这个对集成学习等方法会有很大的好处。（利于集成分类器的之间的差异性）

调参与最终模型：大多数学习算法，都有些参数需要设定，参数配置不同，学得模型的性能往往有差别。

性能度量：

对回归任务来说，最常用的性能度量是均方误差。

错误率：不必多说，前面有

精度：不必多说，前面有

分类结果的混淆矩阵：TP+FP+TN+FN=测试样本数。TP+FP=你认为的正例个数，TP是实际的正例个数。

FN+TN=你认为的反例个数，TN=实际反例个数。

查准率：实际的正例个数TP/你认为的正例个数

查全率：实际的正例个数TP/你认为的实际的正例个数+实际的反例个数

本文出自 “简答生活” 博客，谢绝转载！

机器学习的基本概念理解

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 机器学习的基本概念理解

机器学习的基本概念理解

看完仍有疑问？有类似问题直接问程序猿