常见的梯度下降算法

NAG（Nesterov Accelerated Gradient）是一种改进的梯度下降算法。主要思想是在更新参数之前，首先利用动量来预测下一步的位置，然后在这个预测位置处计算梯度，这种做法可以减少动量带来的过度振荡，更有效地朝着最优解方向移动，从而加速收敛。直观的描述是：在小球滚落的过程中，可以提前预知前方情况，这样如果遇到了上升坡面，小球可以在之前提前减速。

PyTorch实现：torch.optim.SGD(params, momentum, nesterov=True)

PyTorch文档：同上。

四、AdaGrad

AdaGrad（Adaptive Gradient）为自适应学习率的算法，根据每个参数的历史梯度调整学习率。随着训练的进行，学习率会逐渐变小，可能导致学习速度减慢。

PyTorch实现：torch.optim.Adagrad(params)

PyTorch文档：https://pytorch.org/docs/stable/generated/torch.optim.Adagrad.html

五、RMSProp

RMSProp（Root Mean Square Propagation）也是一种自适应学习率算法，但相比 Adagrad，RMSprop 使用了一个衰减系数来限制历史梯度的影响，修正了 Adagrad 学习率下降过快的问题。

PyTorch实现：torch.optim.RMSprop(params)

PyTorch文档：https://pytorch.org/docs/stable/generated/torch.optim.RMSprop.html

六、AdaDelta

AdaDelta（Adaptive Delta）是 RMSProp 的一种改进版本，主要解决了 RMSProp 中需要手动设置初始学习率的问题。RMSProp 需要手动设置一个初始学习率，而 AdaDelta 完全去掉了学习率的概念，它使用了一个类似于 RMSProp 的梯度平方的指数加权平均来调整学习率，但不需要设置初始学习率。

PyTorch实现：torch.optim.Adadelta(params)

PyTorch文档：https://pytorch.org/docs/stable/generated/torch.optim.Adadelta.html

七、Adam

Adam（Adaptive Moment Estimation）结合了以上的动量和自适应学习率的优势，是一种流行的优化算法，通常表现出很好的性能，对于大多数问题都是一个良好的默认选择。

PyTorch实现：torch.optim.Adam(params)

PyTorch文档：https://pytorch.org/docs/stable/generated/torch.optim.Adam.html

八、Nadam

Nadam 是一种优化算法，是 Nesterov Accelerated Gradient（NAG）和 Adam 的结合体。

PyTorch实现：torch.optim.NAdam(params)

PyTorch文档：https://pytorch.org/docs/stable/generated/torch.optim.NAdam.html

附：两张动图

571 次浏览

【说明：本站主要是个人的一些笔记和代码分享，内容可能会不定期修改。为了使全网显示的始终是最新版本，这里的文章未经同意请勿转载。引用请注明出处：https://www.guanjihuan.com】