机器学习(3)之最小二乘法的概率解释

2024-07-22 00:26:32 221人阅读

在前面梯度下降以及正规方程组求解最优解参数Θ时，为什么选择最小二乘作为计算参数的指标，使得假设预测出的值和真正y值之间面积的平方最小化？

我们提供一组假设，证明在这组假设下最小二乘是有意义的，但是这组假设不唯一，还有其他很多方法可以证明其有意义。

（1） 假设1：

假设输入与输出为线性函数关系，表示为：

其中，为误差项，这个参数可以理解为对未建模效应的捕获，如果还有其他特征，这个误差项表示了一种我们没有捕获的特征，或者看成一种随机的噪声。

假设服从某个概率分布，如高斯分布（正态分布）：，表示一个均值是0，方差是的高斯分布。

高斯分布的概率密度函数：

根据上述两式可得：

即，在给定了特征与参数之后，输出是一个服从高斯分布的随机变量,可描述为：

*为什么选取高斯分布？

1) 便于数学处理

2) 对绝大多数问题，如果使用了线性回归模型，然后测量误差分布，通常会发现误差是高斯分布的。

3) 中心极限定律：若干独立的随机变量之和趋向于服从高斯分布。若误差有多个因素导致，这些因素造成的效应的总和接近服从高斯分布。

注意：并不是一个随机变量，而是一个尝试估计的值，就是说它本身是一个常量，只不过我们不知道它的值，所以上式中用分号表示。分号应读作“以…作为参数”，上式读作“给定x(i)以为参数的y(i)的概率服从高斯分布”。

假设每个为IID（independently and identically distributed）独立同分布

即误差项彼此之间是独立的，并且他们服从均值和方差相同的高斯分布

（2） 假设2：

设的似然性为（即给定x(i)以为参数的y(i)的概率）：

由于是独立同分布，所以上式可写成所有分布的乘积：

（3） 假设3：

极大似然估计：选取使似然性最大化（数据出现的可能性尽可能大）

定义对数似然函数为：

上式两个加项，前一项为常数。所以，使似然函数最大，就是使后一项最小，即：

这一项就是之前的，由此得证，即之前的最小二乘法计算参数，实际上是假设了误差项满足高斯分布，且独立同分布的情况，使似然最大化来计算参数。

机器学习(3)之最小二乘法的概率解释

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们