RuntimeError: NCCL error in:XXX,unhandled system error, NCCL version 2.7.8

项目场景:

 分布式训练中遇到这个问题,


 

问题描述

大概是没有启动并行运算???(


解决方案:

(1)首先看一下服务器GPU相关信息 进入pytorch终端(Terminal) 输入代码查看

python
torch.cuda.is_available()#查看cuda是否可用;
torch.cuda.device_count()#查看gpu数量;
torch.cuda.get_device_name(0)#查看gpu名字,设备索引默认从0开始;
torch.cuda.current_device()#返回当前设备索引;

Ctrl+Z退出
(2)cd进入要运行文件的上层文件夹

 CUDA_VISIBLE_DEVICES=0,1,2,3,4,5 python -m torch.distributed.launch --nproc_per_node=6 #启动并行运算

加上要运行的文件以及相关配置

 CUDA_VISIBLE_DEVICES=0,1,2,3,4,5 python -m torch.distributed.launch --nproc_per_node=6  src_nq/create_examples.py --vocab_file ./bert-base-uncased-vocab.txt \--input_pattern "./natural_questions/v1.0/train/nq-train-*.jsonl.gz" \--output_dir ./natural_questions/nq_0.03/\--do_lower_case \--num_threads 24 --include_unknowns 0.03 --max_seq_length 512 --doc_stride 128

问题解决

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/468927.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一张倾斜图片进行矫正 c++_专业性文章:10分钟矫正骨盆前倾

如今,骨盆前倾(又称“下交叉综合征”)非常多,大部分是由于以下两个原因而变得越来越突出:经常久坐不良的运动习惯后面我们讲到纠正骨盆前倾的四个基本步骤,让你快速解决,提高生活质量知识型和系统型的内容,…

TypeError: can‘t convert CUDA tensor to numpy. Use Tensor.cpu() to copy the tensor to host memory

项目场景&#xff1a; 运行程序&#xff0c;出现报错信息 TypeError: cant convert CUDA tensor to numpy. Use Tensor.cpu() to copy the tensor to host memory first.。 Traceback (most recent call last):File "tools/demo.py", line 97, in <module>vi…

Secure CRT 自动记录日志

配置自动log操作如下&#xff1a; 1.options ---> Global Options 2、General->Default Session->Edit Default Settings 3、Terminal->Log File 设置如图上所示 点击 日志 &#xff0c;在选项框中 Log file name中填入路径和命名参数&#xff1a; E:\Log\%Y_%M_…

java 异步调用方法_乐字节Java编程之方法、调用、重载、递归

一、概述方法是指人们在实践过程中为达到一定目的和效果所采取的办法、手段和解决方案。所谓方法&#xff0c;就是解决一类问题的代码的有序组合&#xff0c;是一个功能模块。编程语言中的方法是组合在一起来执行操作语句的集合。例如&#xff0c;System.out.println 方法&…

git clone 从GitHub上下载项目到服务器上运行+创建虚拟环境

1. 基础的Linux命令 可先进入需要放置文件的路径之下 pwd # 可看当前路径 cd …/ #返回上一层目录 cd ./xx/ #进入当前路径下的下一个文件2. GitHub项目clone到服务器上运行 # 复制GitHub页面的链接&#xff0c;在服务器后台输入git clone 命令即可 git clone https://githu…

java 调用python_Java平台如何调用Python平台?

1. 问题描述Java平台要调用Pyhon平台已有的算法&#xff0c;为了减少耦合度&#xff0c;采用Pyhon平台提供Restful 接口&#xff0c;Java平台负责来调用&#xff0c;采用HttpJson格式交互。2. 解决方案2.1 JAVA平台侧2.1.1 项目代码public static String invokeAlgorithm(Strin…

C 实现 删除字符串空白符的函数 strtrim

说在前面的话 字符串操作在很多C语言比赛里面都有涉及&#xff0c;最近公众号里面的C语言比赛&#xff0c;都是两个关于字符串操作的题目&#xff0c;希望大家认真看题目。 直接上代码 /*************************************************************************> Fil…

javascript犀牛书_犀牛书作者:最该忘记的JavaScript特性

作者&#xff1a; 李松峰转发链接&#xff1a;https://mp.weixin.qq.com/s/guAN1Cz2gYfKdBhmUpLyVA前言JavaScript这门语言的第一个演示版差不多就在25年前诞生。没记错的话&#xff0c;25年前的今天&#xff0c;1995年5月10日&#xff0c;星期三&#xff0c;我刚刚过了创造Jav…

Weblogic(4)—— Linux环境Weblogic12c配置节点管理(nodemanage.properties)来开启应用服务器(server)及线程池配置...

Linux环境搭建weblogic12c服务器&#xff0c;用来进行weblogic服务器项目部署&#xff0c;刚创建weblogic服务器会默认存在AdminServer管理服务器。但是项目应用一般是不能挂在这个服务器上的&#xff0c;需要自己单独创建应用服务器。 使用root权限登录 服务器&#xff1a; 输…

IDEA与Maven安装+IDEA中利用maven自动下载第三方Jar包

Maven详细安装教程_慕之寒的博客-CSDN博客_maven安装一、安装apache官网下载需要的版本&#xff0c;然后解压缩&#xff0c;解压路径尽量不要有空格和中文Maven – Download Apache Mavenhttps://maven.apache.org/download.cgi二、配置环境变量新建 系统变量变量名&#xff1a…

Web前端学习笔记:Bootstrap

转载于:https://www.cnblogs.com/mmgds/p/6681817.html

计算机软件需求规格说明规范_太阳能(光伏)组件安全规范测试简介_丙观科技

太阳能组件的安全规范测试包含• 接地连续性测试(也称为接地电阻测试)• 绝缘测试 (也称为湿漏电流测试&#xff0c;湿绝缘电阻测试)• 耐压测试 (也称为介质耐压试验)测试设备必须满足下列标准中规定的相关测试要求• IEC 61215 地面用晶体硅光伏组件-设计鉴定和定型• IEC 61…

报错FloatingPointError: Loss became infinite or NaN at iteration=88!

项目场景&#xff1a; Traceback (most recent call last): File "/home/yuan/桌面/shenchunhua/CondInst-master/train_net.py", line 255, in <module> args(args,), File "/home/yuan/anaconda3/envs/AdelaiNet/lib/python3.7/site-packages/d…

git commit查找提交的关键字

使用命令 git log --grepaplog 参考&#xff1a; https://stackoverflow.com/questions/1337320/how-to-grep-git-commit-diffs-or-contents-for-a-certain-word

C语言测试n的阶乘和x的n次方

题目描述 输入一个正数x和一个正整数n&#xff0c;求下列算式的值。要求定义两个调用函数&#xff1a;fact(n)计算n的阶乘&#xff1b;mypow(x,n)计算x的n次幂&#xff08;即xn&#xff09;&#xff0c;两个函数的返回值类型是double。 输出保留4位小数。 输入 x n 输出 数列…

自己动手写java虚拟机_自己动手写操作系统(要了解的知识点)

自己动手写操作系统(开篇)自己动手写操作系统(字符显示)说明&#xff1a;Intel 8086 或者不同的处理器&#xff0c;开机寄存器数据可能不一样&#xff0c;但是大致原理差不多了解过计算机启动的同学肯定知道&#xff0c;当计算机启动的时候 BIOS 会加载 MBR 数据 512 字节到 0x…

git入门基础

git基础 参考&#xff1a;官网git基础 git 文件的生命周期 文件的生命周期图&#xff1a; git中的文件可以分为4个阶段. Untracked &#xff1a; 这是目录中没有被跟踪的文件&#xff0c;即不在git项目中&#xff0c;使用 git commit 等命令对文件进行提交时不会提交这样的文件…

Android 充电LED控制

1、前言 充电LED灯控制是Android设备的基本功能&#xff0c;主要用于提示设备的电池状态&#xff0c;充电状态&#xff0c;满电状态&#xff0c;低电状态&#xff0c;很多手机厂商还使用呼吸效果来显示&#xff0c;普通的低端设备会使用两个LED灯表示&#xff0c;红灯表示充电…

【PyAutoGUI操作指南】04 消息框功能+Question+Waring+Critical+自定义消息框

PyAutoGUI利用PyMsgBox中的消息框函数提供跨平台的纯Python方式来显示JavaScript样式的消息框。 5.1 alert&#xff08;&#xff09; import pyautoguipyautogui.alert(text这里写内容, title通知框标题位置, buttonOK)5.2 confirm() import pyautoguipyautogui.alert(text这…

js 弹出层的点击事件影响到底层的点击事件_聊一聊 Node.js 错误处理

个人博客&#xff1a;https://blog.skrskrskrskr.com错误分类软件程序中&#xff0c;我们可以将错误大致分为外部错误和内部错误两大类。外部错误是正确编写的程序在运行时产生的错误。它并不是程序本身的 bug&#xff0c;更多是一些外部原因导致的问题&#xff0c;比如请求超时…