记模型训练损失为NAN

        前段时间想把我模型的输入由DWT子带改为分块的图像块,一顿魔改后,模型跑着跑着损失就朝着奇怪的方向跑去了:要么突然增大,要么变为NAN。

 


 

         为什么训练损失会突然变为NAN呢?这个作者将模型训练过程中loss为NAN或INF的原因解释得好好详尽(感谢):Pytorch训练模型损失Loss为Nan或者无穷大(INF)原因_pytorch loss nan-CSDN博客icon-default.png?t=N7T8https://blog.csdn.net/ytusdc/article/details/122321907        我经过输入几番输入打印测试,确认我的输入确实没有问题,那么问题只能出现在模型的前向传播或者反向梯度传播过程中。我跟着这个作者的排查思路,最终定位问题出在梯度反向传播上,于是通过梯度剪裁成功解决NAN问题(我还增大了batch_size的大小,输入修改后,我发现模型运算量减小了,显存支持我每个step跑更大的batch_size了)。pytorch训练过程中出现nan的排查思路_torch判断nan-CSDN博客icon-default.png?t=N7T8https://blog.csdn.net/mch2869253130/article/details/111034068修改部分:

        if mode == 'train':# # 1.debug loss# assert torch.isnan(total_loss).sum() == 0, print(total_loss)total_loss.backward()# # 2. 如果loss不是nan,那么说明forward过程没问题,可能是梯度爆炸,所以用梯度裁剪试试nn.utils.clip_grad_norm(net.parameters(), max_norm=3, norm_type=2)optim.step()optim.zero_grad()

梯度剪裁:

        对超出值域范围的梯度进行约束,避免梯度持续大于1,造成梯度爆炸。(没办法规避梯度消失)

torch.nn.utils.clip_grad_norm_(parameters, max_norm, norm_type) 
  • parameters参数是需要进行梯度裁剪的参数列表。通常是模型的参数列表,即model.parameters();
  • max_norm参数可以理解为梯度(默认是L2 范数)范数的最大阈值;
  • norm_type参数可以理解为指定范数的类型,比如norm_type=1 表示使用L1 范数,norm_type=2 表示使用L2 范数。
     

【Pytorch】梯度裁剪——torch.nn.utils.clip_grad_norm_的原理及计算过程-CSDN博客icon-default.png?t=N7T8https://blog.csdn.net/m0_46412065/article/details/131396098?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522170435889016800215059432%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=170435889016800215059432&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-1-131396098-null-null.142^v99^pc_search_result_base7&utm_term=%E6%A2%AF%E5%BA%A6%E5%89%AA%E8%A3%81&spm=1018.2226.3001.4187

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/596134.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据模型中的“概念模型”、“逻辑模型”、“物理模型”区别

数据模型是数字化应用设计过程中非常重要的技术要素,通过数据模型可以提高企业各方沟通效率,实现数字化项目落地的规范性和架构统一性。 数据模型分为三个层级,抽象程度上由高到低依次是概念数据模型(Concept Data Model&#xf…

Java实战项目一:简易命令行计算器开发

文章目录 一、实战概述二、知识点概览(一)变量和数据类型(二)控制台输入输出(三)条件判断与逻辑结构(四)算术运算符(五)方法定义与调用 三、思路分析&#xf…

SoapUI参数传递操作详解

SoapUI 传递参数 本文章主要是通过例子,给大家讲解一下 SoapUI 发送请求时,如何带上参数~ 我们可以先了解下:SoapUI简介:了解这个流行的API测试工具 新建工程 首先新建一个工程,然后在里面进行后续的操作。 填写工程…

冥想第一千零二十七天

1.周三,早上送溪溪上学,带着溪溪的药给老师说了说。今天没有带饭,因为妈妈起来的晚了。 2.项目上全力以赴的一天,晚上健身房和朋友一起运动,朋友指导了器材。 3.晚上抢纪念币没有抢到。 4.感谢父母,感谢朋友…

java基础之-servlet

文章介绍了servlet,它的生命周期,又介绍了servlet的一个简单demo 一、是什么 servlet是一个运行在web服务器上的, 能接受和响应客户端http请求的,java程序 二、怎么用 一个简单的demo 1、在WEB-INF/web.xml创建一个servlet &…

java常见面试题:什么是流(Stream)?Java中的流有哪些操作?

流(Stream)是Java 8中引入的一个新特性,它提供了一种声明性方式来处理数据集合。流是对集合(Collection)对象功能的增强,与Lambda表达式结合,可以提高编程效率、间接性和程序可读性。 在Java中…

okhttp网络请求工具

先依赖 implementation com.squareup.okhttp3:logging-interceptor:3.5.0 implementation com.google.code.gson:gson:2.8.0 import android.content.Context; import android.net.ConnectivityManager; import android.net.NetworkInfo; import android.util.Log; import an…

WPF 应用程序中实现单例模式

要在 WPF 应用程序中实现单例模式,确保应用程序在任意时刻只有一个实例运行,您可以在 App.xaml.cs 的 OnStartup 方法中检查是否已有应用程序实例在运行。如果是,那么可以阻止新实例的启动,并将焦点转移到现有实例,或者…

SSD PCIe接口综述

SSD 的接口当前以PCIe为主,因为其速度远快于SATA接口。 PCIe 特征 已经从PCIe1.0发展到了6.0, 其中3.0的双向带宽:单通道(Lane)为2GB/s, 32通道为64GB/s全双工模式,发送和接收通道可以同时工作(SATA为半双…

python3基础知识-学习目录

本次学习的内容是以python3.X为平台,详细的阐述python编程的基础知识和高级技巧。虽然之前学习过相关的知识,但是并未真正掌握python的原理,此次的学习更是为了加深自己的印象,并更深入的理解python的高阶知识。 为了学习效率更好…

【python入门】day12:bug及其处理思路

bug的常见类型 粗心 / 没有好习惯 思路不清 lst[{rating:[9.7,2062397],id:1292052,type:[犯罪,剧情],title:肖申克的救赎,actors:[蒂姆罗宾斯,摩根弗里曼]},{rating:[9.6,1528760],id:1291546,type:[剧情,爱情,同性],title:霸王别姬,actors:[张国荣 ,张丰毅 , 巩俐 ,葛优]},{r…

redis重启后数据丢失问题解决(亲测好用)

redis修改密码重启后发现redis中的数据丢失了 解决办法: 首先在redis的安装目录下查找重启之前的dump.rdb文件,发现只有当天的一个dump.rdb文件,确认不是重启备份的文件 然后我就全盘找一下dump.rdb的备份文件,找到前一天的备份…

喜讯丨上海和今信息科技有限公司入选2023年上海市专精特新中小企业名单

近日,上海市经济和信息化委员会公示了 2023 年上海市专精特新中小企业名单,上海和今信息科技有限公司凭借多年专注数据智能领域、领先的产品技术实力、专业的创新研发能力以及卓越的行业影响力,顺利通过专家评审和综合评估,荣获上…

WRF进阶:使用Grid Nudging同化Upper-air

Nudging Nudging是一种应用较为广泛的同化方法,通过在控制方程中加上强迫项,逐渐把模式状态向观测状态逼近。这些强迫项相对于方程中的各项量级较小,保证了在每个积分步长中各物理量之间的动力平衡(Stauffer D R, Seaman N L. 19…

MO 2023 年度回顾

PART-ONE 行业态势 随着供需关系的变化,数据库的竞争在经历了 3 年 “百花齐放” 般的发展后,终于在 2023 年进入到了一个相对收拢的阶段。 2023 年,各个数据库厂商间很有默契地在两个方面达成了一致: HTAP 已经成为新一代数据…

源码安全静态扫描工具对比

Checkmarx CxSuite 介绍参见:https://cloud.tencent.com/developer/article/2249914 这家报价接近90W人民币/ 一年,据我们联系的人说 这家销售觉得我们预算不够,高高在上。。。。 sonarqube 参见:GitHub - SonarSource/sonarqu…

【Storm实战】1.2 图解Storm的架构及其组件

文章目录 0. 前言1. 图解架构及其组件2. Storm的主要架构组件 0. 前言 上一章节,我们为了好理解,将storm中的抽象概念 通过画了一个水力发电系统的工作模式,相信大家一定可以直观地理解Storm中的流 (Stream) 、拓扑 (Topology)、Spout、Bolt…

How to understand DataArts Insight in Huawei Cloud

How to understand DataArts Insight in Huawei Cloud 概述什么是DataArts Insight为什么选择华为云DataArts Insight多业务场景全覆盖,实现企业智能分析产品架构产品功能数据接入数据加工仪表板数据大屏交互式分析嵌入式分析智能分析助手智能洞察BI内存引擎企业级数…

编译好的opencv3.1.0_mingw版下载可用

网上转载:感谢网友提供,学习啦! 最近正在学习OpenCV ,为毕业设计做准备。Windows版本的OpenCV都默认提供对VS的支持,其在VS中的配置比较简单,网上也有大批教程详细描述了配置步骤。但在使用Qt Creator时的…

Vue中的计算属性与监听器

聚沙成塔每天进步一点点 ⭐ 专栏简介 Vue学习之旅的奇妙世界 欢迎大家来到 Vue 技能树参考资料专栏!创建这个专栏的初衷是为了帮助大家更好地应对 Vue.js 技能树的学习。每篇文章都致力于提供清晰、深入的参考资料,让你能够更轻松、更自信地理解和掌握 Vue.js 的核心概念和技…