RuntimeError: NCCL error in:XXX,unhandled system error, NCCL version 2.7.8

项目场景:

 分布式训练中遇到这个问题,


 

问题描述

大概是没有启动并行运算???(


解决方案:

(1)首先看一下服务器GPU相关信息 进入pytorch终端(Terminal) 输入代码查看

python
torch.cuda.is_available()#查看cuda是否可用;
torch.cuda.device_count()#查看gpu数量;
torch.cuda.get_device_name(0)#查看gpu名字,设备索引默认从0开始;
torch.cuda.current_device()#返回当前设备索引;

Ctrl+Z退出
(2)cd进入要运行文件的上层文件夹

 CUDA_VISIBLE_DEVICES=0,1,2,3,4,5 python -m torch.distributed.launch --nproc_per_node=6 #启动并行运算

加上要运行的文件以及相关配置

 CUDA_VISIBLE_DEVICES=0,1,2,3,4,5 python -m torch.distributed.launch --nproc_per_node=6  src_nq/create_examples.py --vocab_file ./bert-base-uncased-vocab.txt \--input_pattern "./natural_questions/v1.0/train/nq-train-*.jsonl.gz" \--output_dir ./natural_questions/nq_0.03/\--do_lower_case \--num_threads 24 --include_unknowns 0.03 --max_seq_length 512 --doc_stride 128

问题解决

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/468927.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Codeforces Round #371 (Div. 2) C. Sonya and Queries —— 二进制压缩

题目链接:http://codeforces.com/contest/714/problem/C C. Sonya and Queriestime limit per test1 secondmemory limit per test256 megabytesinputstandard inputoutputstandard outputToday Sonya learned about long integers and invited all her friends to …

一张倾斜图片进行矫正 c++_专业性文章:10分钟矫正骨盆前倾

如今,骨盆前倾(又称“下交叉综合征”)非常多,大部分是由于以下两个原因而变得越来越突出:经常久坐不良的运动习惯后面我们讲到纠正骨盆前倾的四个基本步骤,让你快速解决,提高生活质量知识型和系统型的内容,…

vue.js源码学习分享(五)

//配置项var config {/*** Option merge strategies (used in core/util/options)//选项合并策略*/optionMergeStrategies: Object.create(null),/*** Whether to suppress warnings.//是否抑制警告*/silent: false,/*** Show production mode//生产模式 tip message on boot?…

TypeError: can‘t convert CUDA tensor to numpy. Use Tensor.cpu() to copy the tensor to host memory

项目场景&#xff1a; 运行程序&#xff0c;出现报错信息 TypeError: cant convert CUDA tensor to numpy. Use Tensor.cpu() to copy the tensor to host memory first.。 Traceback (most recent call last):File "tools/demo.py", line 97, in <module>vi…

Secure CRT 自动记录日志

配置自动log操作如下&#xff1a; 1.options ---> Global Options 2、General->Default Session->Edit Default Settings 3、Terminal->Log File 设置如图上所示 点击 日志 &#xff0c;在选项框中 Log file name中填入路径和命名参数&#xff1a; E:\Log\%Y_%M_…

java 异步调用方法_乐字节Java编程之方法、调用、重载、递归

一、概述方法是指人们在实践过程中为达到一定目的和效果所采取的办法、手段和解决方案。所谓方法&#xff0c;就是解决一类问题的代码的有序组合&#xff0c;是一个功能模块。编程语言中的方法是组合在一起来执行操作语句的集合。例如&#xff0c;System.out.println 方法&…

git clone 从GitHub上下载项目到服务器上运行+创建虚拟环境

1. 基础的Linux命令 可先进入需要放置文件的路径之下 pwd # 可看当前路径 cd …/ #返回上一层目录 cd ./xx/ #进入当前路径下的下一个文件2. GitHub项目clone到服务器上运行 # 复制GitHub页面的链接&#xff0c;在服务器后台输入git clone 命令即可 git clone https://githu…

[笔记] FireDAC DataSet 导入及导出 JSON

刚好需要将 FireDAC DataSet (TFDDataSet, TFDQuery...) 转成 JSON&#xff0c;网上找了一圈&#xff0c;原来从 XE6 开始就支持这个功能了&#xff1a; 储存&#xff1a; DataSet1.SaveToFile(d:\Data.json, TFDStorageFormat.sfJSON); 载入&#xff1a; DataSet1.LoadFromFil…

recovery相关的FAQ总结

一、[FAQ12481]Recovery mode在cache/recovery目录下新建一支文件&#xff0c;重启后&#xff0c;新建文件消失了 [DESCRIPTION] 1、在recovery.cpp文件的最后新建一支文件 /cache/recovery/wetest&#xff1b;并写入内容&#xff1a;welcome to recovery mode&#xff01; 2、…

AttributeError: module ‘torch.jit‘ has no attribute ‘_script_if_tracing‘

项目场景&#xff1a; torvh使用提示 AttributeError: module torch.jit has no attribute _script_if_tracing 原因分析&#xff1a; 解决办法&#xff1a;原因是torch与torchvision版本不匹配导致的&#xff0c;重新安装torchvision即可 解决方案&#xff1a; pip install…

java 调用python_Java平台如何调用Python平台?

1. 问题描述Java平台要调用Pyhon平台已有的算法&#xff0c;为了减少耦合度&#xff0c;采用Pyhon平台提供Restful 接口&#xff0c;Java平台负责来调用&#xff0c;采用HttpJson格式交互。2. 解决方案2.1 JAVA平台侧2.1.1 项目代码public static String invokeAlgorithm(Strin…

C 实现 删除字符串空白符的函数 strtrim

说在前面的话 字符串操作在很多C语言比赛里面都有涉及&#xff0c;最近公众号里面的C语言比赛&#xff0c;都是两个关于字符串操作的题目&#xff0c;希望大家认真看题目。 直接上代码 /*************************************************************************> Fil…

小工具:批量替换文件夹下所有文件内容中的指定词

问题描述&#xff1a; 数据集中的xml信息所标注的文件后缀写错了&#xff0c;应该为jpg&#xff0c;因此需要将所有xml文件的.png修改为.jpg 解决代码&#xff1a; 函数作用&#xff1a;找出某文件夹下的包含指定关键词文件列表&#xff0c;并将关键字修改为目标字并将新内容…

jvm性能监控工具

jvm可能存在的问题&#xff1a; OutOfMemoryError&#xff1a;内存不足 内存泄露 线程死锁 锁竞争(Lock Contention) Java消耗过多的CPU一、jps(java virtual machine process status tool)监控jvm进程转台信息jps [options] [hostid] -m&#xff1a;输出传入…

javascript犀牛书_犀牛书作者:最该忘记的JavaScript特性

作者&#xff1a; 李松峰转发链接&#xff1a;https://mp.weixin.qq.com/s/guAN1Cz2gYfKdBhmUpLyVA前言JavaScript这门语言的第一个演示版差不多就在25年前诞生。没记错的话&#xff0c;25年前的今天&#xff0c;1995年5月10日&#xff0c;星期三&#xff0c;我刚刚过了创造Jav…

RuntimeError: Integer division of tensors using div or / is no longer supported, and in a future rel

项目场景&#xff1a; 提示&#xff1a;新版python在pytorch中张量与原始数据的除法计算问题。 问题描述 报错 RuntimeError: Integer division of tensors using div or / is no longer supported, and in a future release div will perform true division as in Python 3…

Weblogic(4)—— Linux环境Weblogic12c配置节点管理(nodemanage.properties)来开启应用服务器(server)及线程池配置...

Linux环境搭建weblogic12c服务器&#xff0c;用来进行weblogic服务器项目部署&#xff0c;刚创建weblogic服务器会默认存在AdminServer管理服务器。但是项目应用一般是不能挂在这个服务器上的&#xff0c;需要自己单独创建应用服务器。 使用root权限登录 服务器&#xff1a; 输…

添加python的系统路径_如何将项目路径添加到系统路径永久地?

我正在使用visualstudio代码构建一个python项目。这是我第一次用编辑器构建一个项目(过去使用Pycharm)。在随着项目越来越大&#xff0c;我想导入一些我在其他目录中编写的类(在同一个项目中)。首先&#xff0c;我在要导入的目录中添加了__init__.py。但是&#xff0c;它没有起…

IDEA与Maven安装+IDEA中利用maven自动下载第三方Jar包

Maven详细安装教程_慕之寒的博客-CSDN博客_maven安装一、安装apache官网下载需要的版本&#xff0c;然后解压缩&#xff0c;解压路径尽量不要有空格和中文Maven – Download Apache Mavenhttps://maven.apache.org/download.cgi二、配置环境变量新建 系统变量变量名&#xff1a…