torchrun在验证集使用一个GPU时报NCCL超时：Watchdog caught collective operation timeout的解决方案

news/2025/4/27 3:55:41/文章来源:https://blog.csdn.net/wtl1992/article/details/137056601

有时候在分布式训练时，可能会出现nccl通信超时的问题，出现的原因好像是在某些数据处理、加载等过程，多个进程一起完成，但是某些计算（比如loss具体不知道都有啥）需要rank0自己来做，但是由于默认的30分钟没算完，没完成不同rank之间的正常通信，导致报错。

可以做如下的操作：

增加超时时间：你可以尝试增加NCCL操作的超时时间。在PyTorch中，你可以通过设置

torch.nn.utils.convert_parameters_to_tensors()

函数的timeout参数来实现这一点。

或者：

os.environ['NCCL_BLOCKING_WAIT'] = '0'  # not to enforce timeout
dist.init_process_group('nccl' if dist.is_nccl_available() else 'gloo',timeout=timedelta(seconds=7200000), # was 1800000rank=RANK,world_size=world_size)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/772081.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

torchrun在验证集使用一个GPU时报NCCL超时：Watchdog caught collective operation timeout的解决方案

相关文章

语言模型：解密AI语言理解之道

Javascript——Symbol简单了解

TCP（socket 套接字）编程 1

5.88 BCC工具之tcpsynbl.py解读

javaWeb健身房管理系统

nacos集群搭建实战

智慧工地源码数字孪生可视化大屏工地管理平台系统源码多端展示（PC端、手机端、平板端）

ubuntu22.04配置Azure Kinect DK深度相机

25.7 MySQL 数据库和表的基本操作

VITIS更新硬件平台

使用SqlDataAdapter和DataSet维护数据库表数据

Transformer的前世今生 day08（Positional Encoding）

LinkedIn账号为什么被封？被封后如何解决？

Python语法中，对函数名字的定义应该遵循什么规则？

NDI虚拟摄像头的使用

系统学习Python——装饰器：“私有“和“公有“属性案例-[验证函数的参数：针对位置参数的一个基本范围测试装饰器]

HCIP的学习（4）

代码随想录图论

什么是V R美术馆|V R互动体验店加盟|虚拟现实元宇宙

20240319-1-过拟合与欠拟合