pytorch 自定义学习率更新 Poly

Poly

学习率调整策略需要继承_LRScheduler类,该类包含三个重要属性和两个重要方法

学习率与batch-size的关系

一般来说,batch-size的大小一般与学习率的大小成正比。batch-size越大一般意味着算法收敛方向的置信度越大,也可以选择较大的学习率来加快收敛速度。而小的batch-size规律性较差,需要小的学习率保证不出错。在显存允许的情况下,选择大的batch-size。

预设规则的学习率变化法:StepLR、Multi-StepLR
自适应的学习率变化法:ExponentialLR,CosineAnnealingLR,LambdaLR,OneCycleLR,Poly

Poly学习率调整策略的优点包括:

更好的泛化能力:Poly学习率调整策略可以在训练后期逐渐降低学习率,避免过拟合,提高模型的泛化能力。
对超参数不敏感:Poly学习率调整策略的性能不太受超参数的影响,相对比较稳定。
计算量较小:Poly学习率调整策略的计算量相对较小,不会影响训练速度。

Poly学习率调整策略的缺点包括:
收敛速度较慢:Poly学习率调整策略在训练初期学习率较低,收敛速度较慢。
不适用于所有模型:Poly学习率调整策略可能不适用于所有类型的模型,需要根据具体情况进行选择。

code 如下

from torch.optim.lr_scheduler import _LRSchedule
from torch.optim.optimizer import Optimizer
// 定义
class PolyLR(_LRScheduler):def __init__(self,optimizer,max_iters,power=0.9,last_epoch=-1,min_lr=1e-6):# super(PolyLR,self).__init__(optimizer,last_epoch)self.power = powerself.max_iters = max_itersself.min_lr = min_lrsuper(PolyLR, self).__init__(optimizer, last_epoch)def get_lr(self) -> float:return [ max( base_lr * ( 1 - self.last_epoch/self.max_iters )**self.power, self.min_lr)for base_lr in self.base_lrs]
model = AlexNet(num_classes=2)
optimizer = torch.optim.Adam(model.parameters(),lr=0.1)
scheduler = PolyLR(optimizer, max_iters=150, power=0.9, last_epoch=-1, min_lr=1e-6)

使用方法和位置

在这里插入图片描述

参考链接:[1] https://blog.csdn.net/shengweiit/article/details/130649229
[2] https://blog.csdn.net/qq_31580989/article/details/121491181

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/850407.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

STM32快速入门(ADC数模转换)

STM32快速入门(ADC数模转换) 前言 ADC数模转换存在的意义就是将一些温度传感器、各自数据传感器产生的模拟信号转换成方便识别和计算的数字信号。 导航 图24 通用定时器框图: 图片截取自STM32 F1XX中文参考手册。还是以框图为中心&#x…

scss是什么安装使⽤的步骤

当谈到SCSS时,我们首先需要了解它是什么。SCSS,也称为Sassy CSS,是Sass(Syntactically Awesome Stylesheets)的一种语法,它是CSS的预处理器,允许你使用变量、嵌套规则、混合(mixin&a…

FinalShell导出服务器配置信息密码password是加密的,如何解密?

本章教程,主要实现了一个小的功能,对FinalShell导出的配置信息,进行解密。 FinalShell导出之后,会产生一个json文件,例如下面这种json格式,里面记录了服务器的IP地址,端口和密码,里面的密码是经过加密处理的,本文主要利用java代码实现对这个password进行解密还原。 {&…

vue问题记录

vue3 路由跳转携带参数 路由跳转携带参数 query方法 //跳转传参 this.$router.push({path:/home,query: {id:1}}) //接受参数 this.$route.query.id问题:刷新页面,参数会丢失—未解决 将参数存在本地存储中,但是组件销毁时,清…

搜索算法例子

搜索算法例子 搜索算法是计算机科学中的重要部分,用于在数据集合中查找特定元素。这些搜索算法在不同场景中有不同的应用和性能表现,通过选择合适的搜索算法,可以提高程序的性能和效率。线性搜索:适用于小型、无序数据集。二分搜索:适用于大型、有序数据集。深度优先搜索(…

nodejs 获取服务器文件夹里面图片,并前端进行幻灯展示

最近在实现一个特别个性的要求,就是读取服务器的文件夹里面的图片,然后前端进行轮播显示,因为客户要求的开发环境特殊一些,纯js的话又实现不了对本地文件夹的读取,所以这里用到了node.js下面我们来看怎么实现的 为了在…

(论文翻译)Coordinate Attention for Efficient Mobile Network Design(坐标注意力 CVPR2021)

Coordinate Attention for Efficient Mobile Network Design(CVPR2021) 文章目录 Coordinate Attention for Efficient Mobile Network Design(CVPR2021)摘要1.引言2.相关工作3.方法:Coordinate Attention3.1.Revisit …

【c++】哈希>unordered容器哈希表哈希桶哈希的应用详解

主页:醋溜马桶圈-CSDN博客 专栏:c_醋溜马桶圈的博客-CSDN博客 gitee:mnxcc (mnxcc) - Gitee.com 目录 1. unordered系列关联式容器 1.1 unordered_map 1.1.1 unordered_map的文档介绍 1.1.2 unordered_map的接口说明 1.1.2.1 unordered_m…

【制作面包game】

编写一个制作面包的游戏代码涉及到游戏设计、编程和用户界面设计等多个方面。这里我可以提供一个简化版本的Python代码示例,用于创建一个基本的面包制作游戏。这个游戏将会有一个简单的用户界面,玩家可以通过输入命令来制作面包。 游戏的基本流程如下&a…

Java学习 - Maven - 常用命令(学习精选)

前言 在上一篇文章中,我们对 Maven 有了初步的了解,包括它的定义、安装步骤以及一些基本的配置方法。Maven 是一个强大的项目管理工具,它可以帮助开发者自动化构建过程,并且管理项目的依赖关系。 今天,我们将深入探讨…

上位机图像处理和嵌入式模块部署(f407 mcu和其他mcu品类的选择)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 很多朋友读书的时候学的是stm32,工作中用的也是stm32。这本来问题不大,但是过去两三年的经历告诉我们,mcu的使用…

AngularJS 表单

AngularJS 表单 AngularJS 是一个由 Google 维护的开源前端框架,它允许开发者使用 HTML 作为模板语言,并扩展 HTML 的语法,以清晰简洁地表达应用的组件。AngularJS 的核心特性之一是双向数据绑定,这极大地简化了 DOM 操作和事件处理。在 AngularJS 中,表单处理是一个重要…

EntitiesSample_12. FixedTimestep

示例的知识点 1.标签[UpdateInGroup(typeof(FixedStepSimulationSystemGroup))] 这个系统标签标识这,系统在FixedStepSimulationSystemGroup这个组里面执行更新逻辑,FixedStepSimulationSystemGroup是一个固定真速度的仿真系统组 2.给实体身上的组件…

【设计模式】行为型设计模式之 职责链模式,探究过滤器、拦截器、Mybatis插件的底层原理

一、介绍 职责链模式在开发场景中经常被用到,例如框架的过滤器、拦截器、还有 Netty 的编解码器等都是典型的职责链模式的应用。 标准定义 GOF 定义:将请求的发送和接收解耦,让多个接收对象都有机会处理这个请求,将这些接收对象…

匹配算法 python

1. 基于特征的匹配算法 1.1 SIFT(Scale-Invariant Feature Transform) SIFT 是一种在尺度和旋转上不变的特征点检测算法,常用于图像匹配。 步骤: 关键点检测:检测图像中的关键点,利用高斯差分&#xff…

智能合约中断言失败

断言失败: 断言(assert)在智能合约中用于确保内部逻辑的一致性和正确性,但如果使用不当,确实可能导致意外的合约终止或资金锁定。这是因为assert主要用于检测程序内部的错误,例如算法错误或逻辑错误&#…

k8s小型实验模拟

(1)Kubernetes 区域可采用 Kubeadm 方式进行安装。(5分) (2)要求在 Kubernetes 环境中,通过yaml文件的方式,创建2个Nginx Pod分别放置在两个不同的节点上,Pod使用hostPat…

邬家桥公园

文|随意的风 原文地址 我游览过现存规模最大、保存最完整的皇家园林颐和园,瞻仰过拥有世界上最大祭天建筑群的天坛公园,那都是多年前的事情了。 邬家桥公园相比颐和园、天坛公园,气势雄伟倒谈不上。它没有西湖的水平如镜&#xff…

Java | Leetcode Java题解之第139题单词拆分

题目&#xff1a; 题解&#xff1a; public class Solution {public boolean wordBreak(String s, List<String> wordDict) {Set<String> wordDictSet new HashSet(wordDict);boolean[] dp new boolean[s.length() 1];dp[0] true;for (int i 1; i < s.len…

TCP和UDP通信中如何处理并发冲突

在处理TCP和UDP通信中的并发冲突时&#xff0c;我们可以采取多种策略来确保数据的准确传输和系统的稳定性。以下是对TCP和UDP在并发冲突处理方面的详细分析&#xff1a; TCP通信中的并发处理 TCP是一种面向连接的传输层协议&#xff0c;它通过建立可靠的连接来保证数据的完整…