机器学习（三）梯度下降与拟牛顿

2024-08-16 04:05:45 218人阅读

这节课的推导真心hold不住了。按照自己的理解记下仅看明白的东西吧。或许还有第二遍、第三遍整理呢。

主要讲了两个问题：

学习率α如何确定？

　　使用固定的学习率还是变化的学习率？

　　学习率设置为多大比较好？

下降的方向如何处理，除了梯度方向，有没有其他方向？

　　可行方向和梯度方向有何关系？

先上结论：

使用固定的学习率还是变化的学习率？

使用变化的学习率好。学习率的确定可以这样：在参数迭代的开始阶段，由于与最优值差距较大，可以使用较大的学习率；在迭代后期，使用较小的学习率增加稳定性和精度。

学习率设置为多大比较好？

构造一个关于α的函数，然后用二分线性搜索或回溯搜索来求得当前最优的学习率α。注意：当前最优。

那如何构造学习率α？

推导...

可行方向和梯度方向有何关系？

就是拟牛顿方向，我的理解是，梯度是线性的，牛顿是非线性的。梯度线性下降或者牛顿非线性下降。

********************************************分割线**********************************************

机器学习（三）梯度下降与拟牛顿

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们