由于训练时间短,越来越多人使用自适应梯度方法来训练他们的模型,例如Adam它已经成为许多深度学习框架的默认的优化算法。尽管训练结果优越,但Adam和其他自适应优化方法与随机梯度下降(SGD)相比,有时的效果并不好。这些方法在训练数据上表现良好,但在测试数据却差很多。
最近,许多研究人员已经开始针对这个问题进行研究,尤其是我们最常用的Adam。本篇文章将试着理解一下这些研究结果。
Adam收敛速度更快,但最终的结果却并不好!
为了充分理解这一说法,我们先看一看ADAM和SGD的优化算法的利弊。
传统的梯度下降是用于优化深度学习网络的最常见方法。该技术在1950年代首次提出,可以通过观察参数变化如何影响目标函数,选择一个降低错误率的方向来更新模型的每个参数,并且可以进行继续迭代,直到目标函数收敛到最小值。
SGD是梯度下降的一种变体。SGD并不对整个数据集执行计算——而是只对随机选择的数据示例的一个小子集进行计算。在学习率较低的情况下,SGD的性能与常规梯度下降相同。
Adam的优化方法根据对梯度的一阶和二阶的估计来计算不同参数的个体自适应学习率。它结合了RMSProp和AdaGrad的优点,对不同的参数计算个别的自适应的学习率。与RMSProp中基于平均第一阶矩(平均值)来调整参数学习率不同,Adam还使用了梯度的第二阶矩(非中心方差)的平均值。
上图来自cs231n,根据上面的描述Adam能迅速收敛到一个“尖锐的最小值”,而SGD计算时间长步数多,能够收敛到一个“平坦的最小值”,并且测试数据上表现良好。
完整文章:
https://avoid.overfit.cn/post/0ef6af02aa2947bca154a89cc9c67436
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/282163.html