梯度下降法与牛顿下降法速度的比较

首页 > 代码库 > 梯度下降法与牛顿下降法速度的比较

梯度下降法与牛顿下降法速度的比较

2024-09-30 12:20:39 219人阅读

“牛顿下降法和梯度下降法在机器学习和自适应滤波中都很重要，本质上是为了寻找极值点的位置。但是收敛的速度不同。本文中就两种方法来探究一下，哪种收敛方法速度快“

牛顿下降法的递推公式：

xn+1=xn?f′(xn)/f′′(xn)

梯度下降算法的递推公式：

xn+1=xn?μ?f′(xn)

解释一

下图是两种方法的图示表示，红色为牛顿下降法，绿色为梯度下降法，从图中直观的感觉是，红色线短，下降速度快。因为牛顿下降法是用二次曲面去拟合当前的局部曲面，而梯度下降法是用平面去拟合当前的局部曲面，一般用二次曲面拟合的更好，所以一般牛顿算法收敛快。

技术分享

关于以上的说法中，梯度下降法是用平面去拟合当前的局部曲面。梯度 f’(x)的方向是函数变大的方向。这里需要解释一下，对于一维情况而言，梯度方向只有正方向和负方向。至于为什么梯度下降算法就是用平面去拟合了，大多数情况下，没有讲的详细。接下来就聊一下为什么。

首先考虑一下这个公式，这是一阶泰勒展式，其实就是用平面去拟合函数的局部曲面。

f(x+Δx)=f(x)+f′(x)?Δx

f′(x)?Δx

Δx=?f′(x)

f(x+Δx)=f(x)?f′(x)?f′(x)

f(x+Δx)

但是不要忘了以上所有的一切只有在局部成立，也就是说在小范围才成立，那么下式就有很能太大

Δx=?f′(x)

Δx=?μ?f′(x)

最终得到公式：

xn+1=xn?μ?f′(xn)

这就是为什么说梯度下降算法是用平面拟合函数的局部曲面。

至于说牛顿下降法是用二次曲面去拟合当前的局部曲面，首先考虑一下下式：

f(x+Δx)=f(x)+f′(x)Δx+1/2?f′′(x)?Δx2

同样我们希望左式最小，那么将左式看成是△x的函数，当取合适的△x值时，左边的式子达到极小值，此时导数为0。因此对上式进行求导数，得到一下公式：

0=f′(x)+f′′(x)?Δx

xn+1=xn?f′(xn)/f′′(xn)

所以说牛顿下降法是用二次曲面来拟合函数的局部曲面。

综上而言，牛顿下降法利用了函数的更多的信息，能够更好的拟合局部曲面，所以收敛的速度也会加快。

解释二

关于梯度下降算法，其中最重要的就是要确定步长μ，它的值严重的影响了梯度下降算法的表现。

接下来考虑如下公式：

f′(x+Δx)=f′(x)+f′′(x)?Δx

Δx=?μ?f′(x)

结合两个式子，得到：

f′(x+Δx)=f′(x)?μ?f′′(x)?f′(x)

μ=1/f′′(x)

由此可见牛顿下降法是梯度下降法的最优情况，因此牛顿下降法的收敛的速度必然更快。

本文转自以下博客内容，在此表示感谢

http://blog.csdn.net/njucp/article/details/50488869

梯度下降法与牛顿下降法速度的比较

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 梯度下降法与牛顿下降法速度的比较

梯度下降法与牛顿下降法速度的比较

解释一

解释二

看完仍有疑问？有类似问题直接问程序猿