torchrun在验证集使用一个GPU时报NCCL超时:Watchdog caught collective operation timeout的解决方案

有时候在分布式训练时,可能会出现nccl通信超时的问题,出现的原因好像是在某些数据处理、加载等过程,多个进程一起完成,但是某些计算(比如loss具体不知道都有啥)需要rank0自己来做,但是由于默认的30分钟没算完,没完成不同rank之间的正常通信,导致报错。

可以做如下的操作:

增加超时时间:你可以尝试增加NCCL操作的超时时间。在PyTorch中,你可以通过设置

torch.nn.utils.convert_parameters_to_tensors()

函数的timeout参数来实现这一点。

或者:

os.environ['NCCL_BLOCKING_WAIT'] = '0'  # not to enforce timeout
dist.init_process_group('nccl' if dist.is_nccl_available() else 'gloo',timeout=timedelta(seconds=7200000), # was 1800000rank=RANK,world_size=world_size)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/772081.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

语言模型:解密AI语言理解之道

在这个信息爆炸的时代,我们每天都在与海量的文本数据打交道。如何从这些文本中提炼出有价值的信息,成为了科技界的一大挑战。而语言模型,正是解决这一挑战的关键技术之一。今天,就让我们一起走进语言模型的神秘世界,探索其原理、实战与评估的奥秘。 一、原理篇:语言模型…

Javascript——Symbol简单了解

一、Symbol(符号) 1.1 MDN链接:yield - JavaScript | MDN (mozilla.org) 1.2 Symbol简介 Symbol(符号)是ECMAScript6新增的数据类型。符号是原始值,且符号实例是唯一、不可变的。符号的用途是确保对象属性使用唯一标识符,不会发生属性冲突…

TCP(socket 套接字)编程 1

一、TCP套接字编程架构如下 二、相关代码实现 1、服务器端代码 package com.company;import java.io.IOException; import java.net.InetSocketAddress; import java.net.ServerSocket; import java.net.Socket;public class Main {public static void main(String[] args) {…

5.88 BCC工具之tcpsynbl.py解读

一,工具简介 tcpsynbl工具以直方图的形式显示SYN到达时的TCP SYN积压大小。这可以让我们了解应用程序距离达到积压限制并丢弃SYN(导致SYN重传产生性能问题)还有多远。 TCP SYN 数据包则通常用于启动 TCP 三次握手过程的第一次握手。 二,代码示例 #!/usr/bin/env python…

javaWeb健身房管理系统

一、简介 随着人们健康意识的增强和生活水平的提高,健身已经成为了现代人生活中不可或缺的一部分。为了更好地管理健身房的日常运营,我们设计并开发了一款基于 JavaWeb 的健身房管理系统。本系统采用了最新的技术,包括 Spring Boot、MyBatis…

nacos集群搭建实战

集群结构图 初始化数据库 Nacos默认数据存储在内嵌数据库Derby中,不属于生产可用的数据库。官方推荐的使用mysql数据库,推荐使用数据库集群或者高可用数据库。 首先新建一个数据库,命名为nacos,而后导入下面的SQL(直…

智慧工地源码 数字孪生可视化大屏 工地管理平台系统源码 多端展示(PC端、手机端、平板端)

智慧工地源码 数字孪生可视化大屏 工地管理平台系统源码 多端展示(PC端、手机端、平板端) 智慧工地系统多端展示(PC端、手机端、平板端);数字孪生可视化大屏,一张图掌握项目整体情况;使用轻量化模型,部署三…

ubuntu22.04配置Azure Kinect DK深度相机

一.安装SDK 今天我来配置一下微软公司的Azure Kinect DK深度相机,以前在ubuntu18.04上配置过,因为官方说唯一支持linux版本是18.04,所以在18.04中配置还算顺利 but这不代表不可以在更高版本的ubuntu中使用,只不过需要自己去多配置一些东西 apt 源安装 更新源: c…

25.7 MySQL 数据库和表的基本操作

1. 基础知识 1.1 一条数据的存储过程 存储数据确实是处理数据的基石, 只有确保数据被准确无误且有条理地存储, 我们才能对其进行深入的处理和细致的分析. 否则, 这些数据就像是一团毫无章法的乱麻, 让我们难以捉摸其内在的逻辑和价值.那么, 如何才能够将用户那些与经营紧密相关…

VITIS更新硬件平台

VITIS硬件平台更新以后如何重新导入 在之前建立的硬件平台上右击,选择Update Hardware Specification,选择最新导出的硬件平台文件; 重建板级支持包 选择复位重建BSP源文件,俩个地方的BSP都Reset一下,然后Build&…

使用SqlDataAdapter和DataSet维护数据库表数据

使用SqlDataAdapter和DataSet维护数据库表数据一般按照如下步骤操作: 1.建立数据库连接 2.使用sql查询语句创建SqlDataAdapter实例,并利用SqlCommandBuilder自动生成SqlDataAdapter对象的InsertCommand,UpdateCommand,DeleteCom…

Transformer的前世今生 day08(Positional Encoding)

前情提要 Attention的优点:解决了长序列依赖问题,可以并行。Attention的缺点:开销变大了,而且不存在位置关系为了解决Attention中不存在位置关系的缺点,我们通过位置编码的形式加上位置关系 Positional Encoding&…

LinkedIn账号为什么被封?被封后如何解决?

近期会有一些小伙伴说自己遇到了帐号无法登录的情况,其实出现领英帐号被封号(被限制登录)主要会有两类情况,今天就给大家分享一下如果被封该如何解决,强烈建议收藏。 在电脑领英官网或者手机领英APP上,输入领英帐号密码点击登录后…

Python语法中,对函数名字的定义应该遵循什么规则?

在Python语法中,函数名字的定义应遵循以下规则: 标识符命名规则:函数名是一个标识符,因此它必须遵循Python的标识符命名规则。函数名只能包含字母(A-Z,a-z)、数字(0-9)和…

NDI虚拟摄像头的使用

目录 一、软件 二、具体操作 1、启动ScreenCapture 2、启动Webcam 3、选择NDI“源”

系统学习Python——装饰器:“私有“和“公有“属性案例-[验证函数的参数:针对位置参数的一个基本范围测试装饰器]

分类目录:《系统学习Python》总目录 让我们从基本的范围测试实现开始。为了简化步骤,起初我们将编写一个只对位置参数有效的装饰器,并且假设这些参数在每次调用中总是出现在相同的位置。位置参数不能通过关键字名称传递,并且我们在…

HCIP的学习(4)

GRE和MGRE VPN---虚拟专用网络。指依靠ISP(运营商)或其他公有网络基础设施上构建的专用的安全数据通信网络。该网络是属于逻辑上的。​ 核心机制—隧道机制(封装技术) GRE—通用路由封装 ​ 三层隧道技术,并且是属于…

代码随想录 图论

目录 797.所有可能得路径 200.岛屿数量 695.岛屿的最大面积 1020.飞地的数量 130.被围绕的区域 417.太平洋大西洋水流问题 827.最大人工岛 127.单词接龙 841.钥匙和房间 463.岛屿的周长 797.所有可能得路径 797. 所有可能的路径 中等 给你一个有 n 个节点的…

什么是V R美术馆|V R互动体验店加盟|虚拟现实元宇宙

VR美术馆是利用虚拟现实(VR)技术构建的数字化美术馆,通过虚拟展厅和虚拟展览等形式展示艺术作品、举办艺术展览,为用户提供一种沉浸式的艺术体验。用户可以通过穿戴VR头显等设备,在虚拟环境中自由浏览各种艺术作品&…

20240319-1-过拟合与欠拟合

过拟合欠拟合面试题 1. 如何理解高方差与低偏差? 模型的预测误差可以分解为三个部分: 偏差(bias), 方差(variance) 和噪声(noise). 偏差 偏差度量了模型的期望预测与真实结果的偏离程度, 即刻画了学习算法本身的拟合能力。偏差则表现为在特定分布上…