首页 > 代码库 > 线性回归(HGL的读书笔记2)
线性回归(HGL的读书笔记2)
线性回归:是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
对于一般训练集:
????
????
参数系统为:
????
线性模型为:
????
线性回归的目的为最小化J(θ):
????
简单线性回归模型为:
????
定义残差均方和(residual sum of squares, RSS, J(θ)):
通过微分运算,使RSS最小的参数估计为
其中,与为与的估计值。
对于一般线性系统:
????
其中 , ,为θ的估计值
线性回归的概率解释(Probabilistic interpretaion)[1]:
假设:
????
其中,为误差(error),可能又许多原因引起,一般情况下服从正太分布(也有特殊情况,但是比较少见,引起误差的原因很多,每种原因相互独立,由中心极限可知,对于大多数问题,使用线性系统,尝试测量误差,误差一般服从正太分布,所以假设误差是正态分布是很好的假设)。所以:
由于,可以得到:
????
可以理解为服从均值为,方差为的正太分布,可以得到:
????
????其中,中不把θ作为随机变量。可以理解为服从对于θ的高斯分布。
对于每一个是独立同分布的(Independently Identically Dstributed, IID),所以有:
????
这里取值越贴近的概率越大,所以选择θ使L(θ)最大,为了数学上的便利,将L(θ)转换为log 的形式,因为log 的形式不改变L(θ)的单调性,所以有:
????
所以最大化l(θ)等价于最小化函数:
????
得到了线性回归的目标函数。
线性回归(HGL的读书笔记2)