5-7 优化器optimizers——eat_tensorflow2_in_30_days

2022年6月30日 00:25 • 编程笔记

5-7 优化器optimizers

机器学习界有一群炼丹师，他们每天的日常是：
拿来药材（数据），架起八卦炉（模型），点着六味真火（优化算法），就摇着蒲扇等着丹药出炉了。
不过，当过厨子的都知道，同样的食材，同样的菜谱，但火候不一样了，这出来的口味可是千差万别。火小了夹生，火大了易糊，火不匀则半生半糊。
机器学习也是一样，模型优化算法的选择直接关系到最终模型的性能。有时候效果不好，未必是特征的问题或者模型设计的问题，很可能就是优化算法的问题。
深度学习优化算法大概经历了 SGD -> SGDM -> NAG ->Adagrad -> Adadelta(RMSprop) -> Adam -> Nadam 这样的发展历程。
详见《一个框架看懂优化算法之异同 SGD/AdaGrad/Adam》
https://zhuanlan.zhihu.com/p/32230623
对于一般新手炼丹师，优化器直接使用Adam，并使用其默认参数就OK了。
一些爱写论文的炼丹师由于追求评估指标效果，可能会偏爱前期使用Adam优化器快速下降，后期使用SGD并精调优化器参数得到更好的结果。
此外目前也有一些前沿的优化算法，据称效果比Adam更好，例如LazyAdam, Look-ahead, RAdam, Ranger等.

优化器的使用

优化器主要使用apply_gradients方法传入变量和对应梯度从而来对给定变量进行迭代，或者直接使用minimize方法对目标函数进行迭代优化。
当然，更常见的使用是在编译时将优化器传入keras的Model,通过调用model.fit实现对Loss的的迭代优化。
初始化优化器时会创建一个变量optimier.iterations用于记录迭代的次数。因此优化器和tf.Variable一样，一般需要在@tf.function外创建。

import tensorflow as tf
import numpy as np 

#打印时间分割线
@tf.function
def printbar():
    ts = tf.timestamp()
    today_ts = ts%(24*60*60)

    hour = tf.cast(today_ts//3600+8,tf.int32)%tf.constant(24)
    minite = tf.cast((today_ts%3600)//60,tf.int32)
    second = tf.cast(tf.floor(today_ts%60),tf.int32)
    
    def timeformat(m):
        if tf.strings.length(tf.strings.format("{}",m))==1:
            return(tf.strings.format("0{}",m))
        else:
            return(tf.strings.format("{}",m))
    
    timestring = tf.strings.join([timeformat(hour),timeformat(minite),
                timeformat(second)],separator = ":")
    tf.print("=========="*8,end = "")
    tf.print(timestring)

# 求f(x) = a*x**2 + b*x + c的最小值
# 使用optimizer.apply_gradients
x = tf.Variable(0.0, name='x', dtype=tf.float32)
optimizer = tf.keras.optimizers.SGD(learning_rate=0.01)

@tf.function
def minimizef():
    a = tf.constant(1.0)
    b =  tf.constant(-2.0)
    c = tf.constant(1.0)
    
    while tf.constant(True):
        with tf.GradientTape() as tape:
            y = a*tf.pow(x, 2) + b*x + c
        dy_dx = tape.gradient(y, x)
        optimizer.apply_gradients(grads_and_vars=[(dy_dx, x)])
        
        # 迭代终止条件
        if tf.abs(dy_dx) < tf.constant(0.00001):
            break
        
        if tf.math.mod(optimizer.iterations, 100) == 0:
            printbar()
            tf.print('step=', optimizer.iterations)
            tf.print('')
    y = a*tf.pow(x, 2) + b*x + c
    return y

tf.print('y=', minimizef())
tf.print('x=', x)

"""
================================================================================22:37:24
step= 100

================================================================================22:37:24
step= 200

================================================================================22:37:24
step= 300

================================================================================22:37:24
step= 400

================================================================================22:37:24
step= 500

================================================================================22:37:24
step= 600

y= 0
x= 0.999995172
"""

# 求f(x) = a*x**2 + b*x + c的最小值

# 使用optimizer.minimize

x = tf.Variable(0.0, name="x", dtype=tf.float32)
optimizer = tf.keras.optimizers.SGD(learning_rate=0.01)   

def f():   
    a = tf.constant(1.0)
    b = tf.constant(-2.0)
    c = tf.constant(1.0)
    y = a*tf.pow(x,2) + b*x + c
    return(y)

@tf.function
def train(epoch = 1000):  
    for _ in tf.range(epoch):  
        optimizer.minimize(f,[x])
    tf.print("epoch = ",optimizer.iterations)
    return(f())

train(1000)
tf.print("y = ", f())
tf.print("x = ", x)

"""
epoch =  1000
y =  0
x =  0.999998569
"""

# 求f(x) = a*x**2 + b*x + c的最小值
# 使用model.fit

tf.keras.backend.clear_session()

class FakeModel(tf.keras.models.Model):
    def __init__(self, a, b, c):
        super().__init__()
        self.a = a
        self.b = b
        self.c = c
    
    def build(self):
        self.x = tf.Variable(0.0, name='x')
        self.built = True
        
    def call(self, features):
        y = self.a * (self.x)**2 + self.b * (self.x) + self.c
        return tf.ones_like(features) * y
    
def myloss(y_true, y_pred):
    return tf.reduce_mean(y_pred)

model = FakeModel(tf.constant(1.0), tf.constant(-2.0), tf.constant(1.0))
model.build()
model.summary()
model.compile(optimizer=tf.keras.optimizers.SGD(learning_rate=0.01), loss=myloss)
# 1*0**2 -2*0 + 1 = 1
history = model.fit(tf.zeros((100, 2)), tf.ones(100), batch_size=1, epochs=10)  # 迭代1000次

"""
Model: "fake_model"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
Total params: 1
Trainable params: 1
Non-trainable params: 0
_________________________________________________________________
Epoch 1/10
100/100 [==============================] - 0s 266us/step - loss: 0.2481
Epoch 2/10
100/100 [==============================] - 0s 207us/step - loss: 0.0044
Epoch 3/10
100/100 [==============================] - 0s 223us/step - loss: 7.6740e-05
Epoch 4/10
100/100 [==============================] - 0s 310us/step - loss: 1.3500e-06
Epoch 5/10
100/100 [==============================] - 0s 401us/step - loss: 1.8477e-08
Epoch 6/10
100/100 [==============================] - 0s 271us/step - loss: 0.0000e+00
Epoch 7/10
100/100 [==============================] - 0s 277us/step - loss: 0.0000e+00
Epoch 8/10
100/100 [==============================] - 0s 820us/step - loss: 0.0000e+00
Epoch 9/10
100/100 [==============================] - 0s 449us/step - loss: 0.0000e+00
Epoch 10/10
100/100 [==============================] - 0s 531us/step - loss: 0.0000e+00
"""

tf.print('x=', model.x)
tf.print('y=', model(tf.constant(0.0)))  # 1 * 1**2 - 2*1 + 1 = 0，注意变量是参数是x

"""
x= 0.99999851
y= 0
"""

内置优化器

深度学习优化算法大概经历了 SGD -> SGDM -> NAG ->Adagrad -> Adadelta(RMSprop) -> Adam -> Nadam 这样的发展历程。
在keras.optimizers子模块中，它们基本上都有对应的类的实现。

SGD, 默认参数为纯SGD, 设置momentum参数不为0实际上变成SGDM, 考虑了一阶动量, 设置 nesterov为True后变成NAG，即 Nesterov Acceleration Gradient，在计算梯度时计算的是向前走一步所在位置的梯度。

Adagrad, 考虑了二阶动量，对于不同的参数有不同的学习率，即自适应学习率。缺点是学习率单调下降，可能后期学习速率过慢乃至提前停止学习。

RMSprop, 考虑了二阶动量，对于不同的参数有不同的学习率，即自适应学习率，对Adagrad进行了优化，通过指数平滑只考虑一定窗口内的二阶动量。

Adadelta, 考虑了二阶动量，与RMSprop类似，但是更加复杂一些，自适应性更强。

Adam, 同时考虑了一阶动量和二阶动量，可以看成RMSprop上进一步考虑了Momentum。

Nadam, 在Adam基础上进一步考虑了 Nesterov Acceleration。

原创文章，作者：wure，如若转载，请注明出处：https://blog.ytso.com/270747.html

100%30 constant days https://zhuanlan.zhihu.com/p/32230623 self Step tensorflow2 tf 优化

赞 (0)

0

entware设置镜像源

上一篇 2022年6月30日

声网自研传输层协议 AUT 的落地实践丨Dev for Dev 专栏

下一篇 2022年6月30日

发表回复

登录后才能评论