首页 > 代码库 > 统计学习方法笔记--监督学习

统计学习方法笔记--监督学习

    监督学习(supervised learning)的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测,计算机的基本操作就是给定一个输入产生一个输出。

基本概念:输入空间、特征空间与输出空间

    在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间(input space)与输出空间(output space)。

    每个具体的输入是一个实例(instance),通常有特征向量(feature vector)表示。这时,所有特征向量存在的空间称为特征空间(features space)。特征空间的每一维对应一个特征。有时假设输入空间与特征空间为相同的空间,对他们不予区分;有时假设输入空间与特征空间为不同的空间,将实例从输入空间映射到特征空间。模型实际上都是定义在特征空间上的。

    输入、输出变量用大写字母表示,习惯上,输入变量写作X,输出变量写作Y。输入、输出变量所取的值用小写字母表示,属兔变量的值写作x,输出变量的值写作y。变量可以是标量或向量,都是相同类型字母表示:

        输入实例:x=(x(1),x(2),...,x(i),...,x(n))T

x(i)表示x的第i个特征。    监督学习从训练数据(training data)集合中学习模型,对测试数据(test data)进行预测。训练数据由输入(或特征向量)与输出对组成,训练集同城表示为

                  T={(x1,y1),(x2,y2),...,(xN,yN)}

测试数据也由相应的输入与输出对组成,输入与输出对又称为样本(sample)或样本点。