最终目的仍是减少振荡方向(b)的更新幅度,提高前进方向(ω)的更新幅度
引入Sdω和Sdb,如公式表达,由于dω<db,求其均方根作为分母,实现ω的更新幅度大,而b的更新幅度小
注意
1. 使用中为了避免出现√Sdω=0导致除数为0的情况出现,应令√(Sdω+ε) (吴恩达视频中建议ε=1e-8)
2. 与动量梯度下降法一样,需要对S进行修正:S = S/(1-βt)
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/278060.html