#深入探究# Adam和SGDM优化器的对比

   日期:2024-12-26    作者:jndnhg 移动:http://oml01z.riyuangf.com/mobile/quote/53126.html

常用优化器的详细解析请参考此文章

#深入探究# Adam和SGDM优化器的对比

  1. 通俗理解 Adam 优化器
  2. #深度解析# 深度学习中的SGD、BGD、MBGD、Momentum、NAG、Adagrad、Adadelta,RMSprop、Adam优化器

通过上边两幅图片可知

  1. Adam在训练集上的准确率较高,MSGD在测试集上的准确率较高
  2. Adam的速度更快,但MSGD能够得到好的效果

Adam 得到最优解多数时候是 Sharp Minimum,而 MSGD 得到往往是Flat Minimum,这也就解释了为什么MSGD在测试集上能够得到更好的效果

至于第二个结论,原因是 Adam 在 MSGD的基础上增加了自适应学习率机制,能够使Adam针对不同的参数分配不同的学习率,从而增加优化速度

Lookahead(k step forward,1 step back)本质上是一种在各种优化器上层的一种优化器方法,内部可以使用任何形式的优化器,用作者的话说就是universal wrapper for all optimizers
Lookahead 的就是:没使用优化器向前走k步,就对当前的第1步和第k步做一个加权平均(忽略中间的k-2步;以下图为例,蓝色线是优化器走的k步路径,然后将蓝线的起始点连接(图中红线,然后在红线上取一点作为k+1步的值(根据 α 而定

在神经网络中,为了提高网络的泛化性我们一般会在损失函数中增加 L2 正则,这种网络使用Adam和SGDM优化器会出现问题


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号