首页 > 代码库 > ML(2): 基本术语

ML(2): 基本术语

归纳总结机器学习相关的基本术语,以一批西瓜的数据为例,例如:(色泽=青绿;根蒂=蜷缩;敲声=浊响),(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),(色泽=浅白;根蒂=硬挺;敲声=清脆)。。。

  • 示例(instance)/样本(sample):对于某个事件或对象的描述(上例中的一个西瓜)
  • 数据集(data set):一组记录的合集
  • 属性(attribute)/特征feature):反映事件或对象在某方面的表现或性质的事项,如:色泽、根蒂、敲声
  • 属性值(attribute value):属性上的取值,如:“青绿","乌黑"
  • 属性空间(attribute space)/样本空间(sample space)/输入空间: 属性张成的空间
  • 特征向量(feature vector):在属性空间里每个点对应一个坐标向量,把一个示例称作特征向量。如:把"色泽”、“根蒂”、“敲声”作为三个坐标轴,则他它们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置,由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个“特征向量”
  • 维数(dimensionality):描述样本参数的个数(也就是空间是几维的)
  • 学习(learning)/训练(training):从数据中学得模型的过程,这个过程通过执行某个学习算法来完成。
  • 训练数据(training data):训练过程中用到的数据
  • 训练样本(training sample):训练用到的每个样本
  • 训练集(training set):训练样本组成的集合
  • 假设(hypothesis):学得模型对应了关于数据的某种潜在规则,这种潜在规律自身,则称为“真相”或"真实“
  • 标记(label):关于示例的结果信息,比如这是一个“好瓜”。
  • 样例(example):拥有标记信息的示例,如下说明:
  • 技术分享
  • 分类(classification):预测时离散值,比如”好瓜“、"坏瓜”之类的学习任务称为分类
  • 回归(regression):若预测的是连续值,比如西瓜成熟度0.95、0.37之类的学习任务称为“回归”
  • 聚类(clustering):把训练集中的对象分为若干组,每组称为一个簇(cluster),这些自动生成的簇可能对应一些潜在的概念划分,如:“浅色瓜”、“深色瓜”,甚至“本地瓜“、”外地瓜“
  • 有监督学习(supervised learning):训练数据拥有标记,典范--分类和回归
  • 无监督学习(unsupervised learning):训练数据无标记,从数据集中自己自动发现模式和关系,典范--聚类 (先天的判断力,无需后天培养)
  • 泛化(generalization)能力:训练出来的模型适用于新样本的能力,具有强泛化能力的模型能很好地适用于整个样本空间。

ML(2): 基本术语