PyTorch框架学习十四——学习率调整策略

PyTorch框架学习十四——学习率调整策略

  • 一、_LRScheduler类
  • 二、六种常见的学习率调整策略
    • 1.StepLR
    • 2.MultiStepLR
    • 3.ExponentialLR
    • 4.CosineAnnealingLR
    • 5.ReduceLRonPlateau
    • 6.LambdaLR

在上次笔记优化器的内容中介绍了学习率的概念,但是在整个训练过程中学习率并不是一直不变的,一般学习率是要先设置的大一些,然后在训练过程中慢慢减小。这次笔记就简单介绍一下PyTorch中学习率调整策略。

一、_LRScheduler类

是各种具体学习率调整策略方法函数所要继承的基类。

主要属性:

  • optimizer:关联的优化器
  • last_epoch:记录epoch数
  • base_lrs:记录初始学习率

主要方法:

  • step():更新下一个epoch的学习率。
  • get_lr():虚函数,计算下一个epoch的学习率。

二、六种常见的学习率调整策略

1.StepLR

功能:等间隔调整学习率。

torch.optim.lr_scheduler.StepLR(optimizer, step_size, gamma=0.1, last_epoch=-1)

参数如下:
在这里插入图片描述

  1. step_size:调整间隔数,学习率衰减的周期。
  2. gamma:调整系数,默认为0.1。

调整方式:lr = lr * gamma

举个栗子:

# 导入模块、设定超参数、给定权重数据
import torch
import torch.optim as optim
import numpy as np
import matplotlib.pyplot as plt
torch.manual_seed(1)LR = 0.1
iteration = 10
max_epoch = 200weights = torch.randn((1), requires_grad=True)
target = torch.zeros((1))optimizer = optim.SGD([weights], lr=LR, momentum=0.9)# StepLR,每隔50轮下降一次学习率
scheduler_lr = optim.lr_scheduler.StepLR(optimizer, step_size=50, gamma=0.1)  # 设置学习率下降策略lr_list, epoch_list = list(), list()
for epoch in range(max_epoch):# 获取当前lr,新版本用 get_last_lr()函数,旧版本用get_lr()函数,具体看UserWarninglr_list.append(scheduler_lr.get_last_lr())epoch_list.append(epoch)for i in range(iteration):loss = torch.pow((weights - target), 2)loss.backward()optimizer.step()optimizer.zero_grad()scheduler_lr.step()plt.plot(epoch_list, lr_list, label="Step LR Scheduler")
plt.xlabel("Epoch")
plt.ylabel("Learning rate")
plt.legend()
plt.show()

绘制出的结果如图所示:
在这里插入图片描述
从图中可见每隔50轮学习率下降为原来的0.1倍。

2.MultiStepLR

功能:按照给定间隔调整学习率。

torch.optim.lr_scheduler.MultiStepLR(optimizer, milestones, gamma=0.1, last_epoch=-1)

参数如下:
在这里插入图片描述

  1. milestones:(列表)设定调整时刻数,必须是递增的。
  2. gamma:调整系数。

调整方式:lr = lr * gamma

举个栗子:

milestones = [50, 125, 160]
scheduler_lr = optim.lr_scheduler.MultiStepLR(optimizer, milestones=milestones, gamma=0.1)lr_list, epoch_list = list(), list()
for epoch in range(max_epoch):lr_list.append(scheduler_lr.get_last_lr())epoch_list.append(epoch)for i in range(iteration):loss = torch.pow((weights - target), 2)loss.backward()optimizer.step()optimizer.zero_grad()scheduler_lr.step()plt.plot(epoch_list, lr_list, label="Multi Step LR Scheduler\nmilestones:{}".format(milestones))
plt.xlabel("Epoch")
plt.ylabel("Learning rate")
plt.legend()
plt.show()

结果如下图所示:
在这里插入图片描述
从图中可见,在我们设定的位置:50/125/160轮时学习率下降为原来的0.1倍。

3.ExponentialLR

功能:按指数衰减调整lr。

torch.optim.lr_scheduler.ExponentialLR(optimizer, gamma, last_epoch=-1)

参数需要关注的只有一个:

  • gamma:指数的底。

调整策略:lr = lr * gamma ^ epoch

举个栗子:

gamma = 0.95
scheduler_lr = optim.lr_scheduler.ExponentialLR(optimizer, gamma=gamma)lr_list, epoch_list = list(), list()
for epoch in range(max_epoch):lr_list.append(scheduler_lr.get_last_lr())epoch_list.append(epoch)for i in range(iteration):loss = torch.pow((weights - target), 2)loss.backward()optimizer.step()optimizer.zero_grad()scheduler_lr.step()plt.plot(epoch_list, lr_list, label="Exponential LR Scheduler\ngamma:{}".format(gamma))
plt.xlabel("Epoch")
plt.ylabel("Learning rate")
plt.legend()
plt.show()

学习率变化结果如下图所示:
在这里插入图片描述

4.CosineAnnealingLR

功能:余弦周期调整lr。

torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max, eta_min=0, last_epoch=-1)

参数如下所示:
在这里插入图片描述

  1. T_max:下降周期,注意不是cos的周期,是cos周期的一半。
  2. eta_min:学习率下限,默认为0。

调整方式:
在这里插入图片描述

t_max = 50
scheduler_lr = optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=t_max, eta_min=0.)lr_list, epoch_list = list(), list()
for epoch in range(max_epoch):lr_list.append(scheduler_lr.get_last_lr())epoch_list.append(epoch)for i in range(iteration):loss = torch.pow((weights - target), 2)loss.backward()optimizer.step()optimizer.zero_grad()scheduler_lr.step()plt.plot(epoch_list, lr_list, label="CosineAnnealingLR Scheduler\nT_max:{}".format(t_max))
plt.xlabel("Epoch")
plt.ylabel("Learning rate")
plt.legend()
plt.show()

学习率变化曲线如下图所示:
在这里插入图片描述
T_max设置为50,所以0-50下降,50-100上升,以此类推。

5.ReduceLRonPlateau

功能:监控指标,当指标不再变化则调整。

torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.1, patience=10, verbose=False, threshold=0.0001, threshold_mode='rel', cooldown=0, min_lr=0, eps=1e-08)

参数如下所示:
在这里插入图片描述

  1. mode:min/max两种模式。
  2. factor:调整系数。
  3. patience:“耐心”,接收几次不变化。
  4. cooldown:“冷却时间”,停止监控一段时间。
  5. verbose:是否打印日志。
  6. min_lr:学习率下限。
  7. eps:学习率衰减最小值。

举个栗子:

loss_value = 0.5
accuray = 0.9factor = 0.1
mode = "min"
patience = 10
cooldown = 10
min_lr = 1e-4
verbose = Truescheduler_lr = optim.lr_scheduler.ReduceLROnPlateau(optimizer, factor=factor, mode=mode, patience=patience,cooldown=cooldown, min_lr=min_lr, verbose=verbose)for epoch in range(max_epoch):for i in range(iteration):# train(...)optimizer.step()optimizer.zero_grad()# if epoch == 5:# loss_value = 0.4scheduler_lr.step(loss_value)

结果如下所示:

Epoch    12: reducing learning rate of group 0 to 1.0000e-02.
Epoch    33: reducing learning rate of group 0 to 1.0000e-03.
Epoch    54: reducing learning rate of group 0 to 1.0000e-04.

6.LambdaLR

功能:自定义调整策略。

torch.optim.lr_scheduler.LambdaLR(optimizer, lr_lambda, last_epoch=-1)

参数主要就一个:
lr_lambda:函数或list。

举个例子:

lr_init = 0.1weights_1 = torch.randn((6, 3, 5, 5))
weights_2 = torch.ones((5, 5))optimizer = optim.SGD([{'params': [weights_1]},{'params': [weights_2]}], lr=lr_init)lambda1 = lambda epoch: 0.1 ** (epoch // 20)
lambda2 = lambda epoch: 0.95 ** epochscheduler = torch.optim.lr_scheduler.LambdaLR(optimizer, lr_lambda=[lambda1, lambda2])lr_list, epoch_list = list(), list()
for epoch in range(max_epoch):for i in range(iteration):# train(...)optimizer.step()optimizer.zero_grad()scheduler.step()lr_list.append(scheduler.get_lr())epoch_list.append(epoch)print('epoch:{:5d}, lr:{}'.format(epoch, scheduler.get_lr()))plt.plot(epoch_list, [i[0] for i in lr_list], label="lambda 1")
plt.plot(epoch_list, [i[1] for i in lr_list], label="lambda 2")
plt.xlabel("Epoch")
plt.ylabel("Learning Rate")
plt.title("LambdaLR")
plt.legend()
plt.show()

结果如下图所示,一个是每隔20轮学习率下降为0.1倍,一个是指数衰减,底为0.95:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/491678.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JavaScript数组常用方法

转载于:https://www.cnblogs.com/kenan9527/p/4926145.html

蕨叶形生物刷新生命史,动物界至少起源于5.7亿年前

来源 :newsweek.com根据发表于《古生物学》期刊(Palaeontology)的一项研究,动物界可能比科学界所知更加古老。研究人员发现,一种名为“美妙春光虫”(Stromatoveris psygmoglena)的海洋生物在埃迪…

TensorFlow保存和载入训练模型

保存:使用saver.save()方法保存 载入:使用saver.restore()方法载入 下面是个完整例子: 保存: import tensorflow as tfW tf.Variable([[1, 1, 1], [2, 2, 2]], dtypetf.float32, namew) b tf.Variable([[0, 1, 2]], dtypetf…

PyTorch框架学习十五——可视化工具TensorBoard

PyTorch框架学习十五——可视化工具TensorBoard一、TensorBoard简介二、TensorBoard安装及测试三、TensorBoard的使用1.add_scalar()2.add_scalars()3.add_histogram()4.add_image()5.add_graph()之前的笔记介绍了模型训练中的数据、模型、损失函数和优化器,下面将介…

C++与linus

1、linus炮轰C原帖(英文) http://thread.gmane.org/gmane.comp.version-control.git/57643/focus57918 2、2007年,linus之父炮轰C:糟糕程序员的垃圾语言(中文) CSDN刘江的博客,包括事件前因后果…

CNN、RNN、DNN的内部网络结构有什么区别?

来源:AI量化百科神经网络技术起源于上世纪五、六十年代,当时叫感知机(perceptron),拥有输入层、输出层和一个隐含层。输入的特征向量通过隐含层变换达到输出层,在输出层得到分类结果。早期感知机的推动者是…

plt.subplots中的ax = ax.flatten()

在用plt.subplots画多个子图中,ax ax.flatten()将ax由n*m的Axes组展平成1*nm的Axes组 以下面的例子说明ax ax.flatten()的作用: fig, ax plt.subplots(nrows2,ncols2,sharexall,shareyall) ax ax.flatten() for i in range(4):img image[i].resh…

L2级自动驾驶量产趋势解读

来源:《国盛计算机组》L2 级自动驾驶离我们比想象的更近。18 年下半年部分 L2 车型已面世,凯迪拉克、吉利、长城、长安、上汽等均已推出了 L2 自动驾驶车辆。国内目前在售2872个车型,L2级功能渗透率平均超过25%,豪华车甚至超过了6…

PyTorch框架学习十六——正则化与Dropout

PyTorch框架学习十六——正则化与Dropout一、泛化误差二、L2正则化与权值衰减三、正则化之Dropout补充:这次笔记主要关注防止模型过拟合的两种方法:正则化与Dropout。 一、泛化误差 一般模型的泛化误差可以被分解为三部分:偏差、方差与噪声…

HDU 5510 Bazinga 暴力匹配加剪枝

Bazinga Time Limit: 20 Sec Memory Limit: 256 MB 题目连接 http://acm.hdu.edu.cn/showproblem.php?pid5510 Description Ladies and gentlemen, please sit up straight.Dont tilt your head. Im serious.For n given strings S1,S2,⋯,Sn, labelled from 1 to n, you shou…

将tensor转array

如果对tensor使用extend方法,如下面这个例子: import tensorflow as tfa tf.convert_to_tensor([1,2,3]) b [] with tf.Session() as sess:b.extend(a) 会报错“Tensor objects are only iterable when eager execution is enabled. To iterate over…

PyTorch框架学习十七——Batch Normalization

PyTorch框架学习十七——Batch Normalization一、BN的概念二、Internal Covariate Shift(ICS)三、BN的一个应用案例四、PyTorch中BN的实现1._BatchNorm类2.nn.BatchNorm1d/2d/3d(1)nn.BatchNorm1d(2)nn.Bat…

人工智能影响未来娱乐的31种方式

来源:资本实验室 技术改变生活,而各种新技术每天都在重新定义我们的生活状态。技术改变娱乐,甚至有了互联网时代“娱乐至死”的警语。当人工智能介入我们的生活,特别是娱乐的时候,一切又将大为不同。尽管很多时候我们很…

ncread

matlab 函数ncread(),这自变量有 source:代表的是你要载入的文件; varname:是你要提取的变量的变量名; start:你提取的变量实际是一个数组,比如你是一个三维数组 start:是你提取这个数组的值的起始索引。如果你的变量是一个三维数组&#xff…

TensorFlow报错:'dict' object has no attribute 'SerializeToString'

这个报错是因为sess.run(a,b,c)里要运行的多个变量没有用中括号括起来 举个错误的例子:下面报错是因为sess.run里的c和d没有用中括号 import tensorflow as tfa tf.placeholder(tf.float32, [1]) b tf.placeholder…

素数与量子物理的结合能带来解决黎曼猜想的新可能吗?

来源:中国科学院数学与系统科学研究院翻译:墨竹校对:杨璐1972年,物理学家弗里曼戴森(Freeman Dyson)写了一篇名为《错失的机会》(Missed Opportunities)的文章。在该文中&#xff0c…

Swift学习笔记-访问控制(Access Control)

1.0 翻译:JaceFu 校对:ChildhoodAndy 2.0 翻译校对:mmoaay 2.1 翻译:Prayer 校对:shanks,2015-11-01 本页内容包括: 模块和源文件访问级别 访问级别的使用原则默认访问级别单目标应用程序的访问…

TensorFlow报错run() got multiple values for argument 'feed_dict'

这个报错是因为sess.run(a,b,c)里要运行的多个变量没有用中括号括起来 举个错误的例子:下面报错是因为sess.run里的c和d没有用中括号 import tensorflow as tfa tf.placeholder(tf.float32, [1]) b tf.placeholder…

PyTorch框架学习十八——Layer Normalization、Instance Normalization、Group Normalization

PyTorch框架学习十八——Layer Normalization、Instance Normalization、Group Normalization一、为什么要标准化?二、BN、LN、IN、GN的异同三、Layer Normalization四、Instance Normalization五、Group Normalization上次笔记介绍了Batch Normalization以及它在Py…

重磅!苹果祭出大招:史上最强 Mac 发布,iPad OS 惊艳问世

来源:网络大数据伴随着时间的脚步进入到 6 月份,一年一度的苹果 WWDC 开发者大会又如期到来;这是苹果自举办开发者大会以来的第三十场 WWDC,因而有着不一样的意义。今年的 WWDC 在苹果库比蒂诺总部附近的 San Jose McEnery Convention Center…