针对基于nohup后台运行PyTorch多卡并行程序中断问题的一种新方法

针对基于nohup后台运行PyTorch多卡并行程序中断问题的一种新方法

文章目录

  • 针对基于nohup后台运行PyTorch多卡并行程序中断问题的一种新方法
    • Abstract
    • screen和tmux介绍
    • tmux常用命令以及快捷键
    • Byobu
    • 简单操作步骤集锦
    • 参考文献

Abstract

PyTorch多卡并行运行程序is one of the most prevalent methods for training large models. nohup也是后台运行程序的一个主要工具。然而,我最近遇到采用nohup后台挂起的多卡并行程序突然断掉了。
在这里插入图片描述
具体的报原因青参考博客nohup训练pytorch模型时的报错以及tmux的简单使用.
该博客推荐使用tmux来进行会话管理。screen, tmux是两种常用的会话管理工具。博客tmux使用指南:比screen好用n倍!也推荐 使用tmux. 然而,我在使用tmux的过程中又遇到了一个新的问题—tmux创建的会话无法切换到相应的conda环境。网上的许多博客
[1]tmux中conda环境无法生效问题
[2]tmux+conda环境配置不对问题解决
均对这个问题给出了自己的答案,然而,unfortunately, 这些博客在我的vscode终端开发环境下均无效。

受到 博客tmux使用指南:比screen好用n倍!评论区中的一个推荐byobu的评论的启发,
在这里插入图片描述

本文提出了一个byobu和tmux结合使用的方法,解决了上述nohup后台挂起失败以及tmux无法切换环境的问题。

screen和tmux介绍

screen是Linux中比较常用的可以“接入”和“离开”的shell对话框,很大地方法方便了我们ssh登录服务器跑任务,如果不用screen, 我们合上电脑,ssh就断开了,相应的服务器运行任务也断开了。与screen类似,tmux也是一个常用的会话管理工具。

# tmux的层次:
-session1
---window1
------subwindow1
------subwindow2
------subwindow3
------subwindow4
---window2
-session2
---window3
---window4

tmux服务可以开启多个session.
一个session可以开多个window
一个window可以分多个subwindow.

tmux常用命令以及快捷键

虽然网上有很多写tmux常用快捷键的博客,但是这些命令并不完全都能在我们自己的环境中有效。例如, tmux的ctr + b +d 的detach session功能就无法在vscode远程开发环境中生效,取而代之的是ctr + a + d,原因未知。所以,tmux快捷键命令是否生效要因自己的环境自行判断。大部分快捷键不会变动。可以参考Tmux使用教程,阮一峰的网络日志。

tmux的一个优点是:
tmux会话内如果还有运行的程序,输入exit命令,会提示不允许退出,太牛了。这样就避免了由于误输入结束session命令导致程序意外中断的问题。

Byobu

Byobu又是怎么一回事呢?Byobu是在Tmux的基础之上进一步封装得到的工具,拥有更多的快捷键,更加方便。最重要的是,对于单纯使用tmux导致的环境无法切换的问题,在Byobu这里就不存在。

然而,单纯使用Byobu的快捷键来进行管理终端可以进行地操作有限。所以,最终的解法是:先运行byobu命令,进入到byobu之后,退出,然后使用tmux管理新建session, detach session等操作。

简单操作步骤集锦

1.在vscode终端运行 byobu, 进入到一个byobu session
2.按ctr + a +d , 退出该session
3.新建一个名为s1的session.

tmux new -s s1

4.ctr+a+d 退出当前session
5. tmux ls 查看所有的session
6. 重新attach s1

tmux attach -t s1

-t意为 target
7.删除某个session
tmux kill-session -t s1

参考文献

[1] nohup训练pytorch模型时的报错以及tmux的简单使用
[2] tmux使用指南:比screen好用n倍!
[3] tmux中conda环境无法生效问题
[4] tmux+conda环境配置不对问题解决
[5] Tmux使用教程,阮一峰的网络日志

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/225461.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网络互通--三层交换机配置

目录 一、三层交换机的原理 1、概念 2、PC A与不同网段的PC B第一次数据转发过程 3、一次路由,多次转发的概念 4、 三层交换机和路由器的比较 二、利用实验理解交换机 1、建立以下拓扑图​编辑 2、分别配置主机的IP地址,子网掩码、网关等信息 3、…

小白学爬虫:根据商品ID或商品链接获取淘宝商品详情数据接口方法

小白学爬虫的准备工作包括以下几个方面: 学习Python基础知识:首先需要掌握Python编程语言的基本语法和数据类型,了解Python的常用库和模块,例如requests库等。了解HTTP协议和HTML语言:了解HTTP协议的基本概念和原理&a…

【Hadoop_05】NN、2NN以及DataNode的工作机制

1、NameNode和SecondaryNameNode1.1 NN和2NN工作机制1.2 Fsimage和Edits解析1.3 CheckPoint时间设置 2、DataNode2.1 DataNode工作机制2.2 数据完整性2.3 掉线时限参数设置 1、NameNode和SecondaryNameNode 1.1 NN和2NN工作机制 思考:NameNode中的元数据是存储在哪…

CUDA 指定设备的方法,CUDA_VISIBLE_DEVICES 设置当前pytorch程序使用那些GPU设备

在进行pytorch 相关程序开发时,有时需要根据自己的规划使用系统中的多块NVidia GPU 设备,可以通过如下几种方法来指定GPU设备: 当服务器有多个GPU卡时,通过设置 CUDA_VISIBLE_DEVICES环境变量可以改变CUDA程序所能使用的GPU设备&…

ES-组合与聚合

ES组合查询 1 must 满足两个match才会被命中 GET /mergeindex/_search {"query": {"bool": {"must": [{"match": {"name": "liyong"}},{"match_phrase": {"desc": "liyong"}}]}}…

http 返回状态

一、状态1:信息 100 Continue:服务器仅接收到部分请求,但是一旦服务器并没有拒绝该请求,客户端应该继续发送其余的请求。 101 Switching Protocols :服务器转换协议:服务器将遵从客户的请求转换到另外一种…

消息队列kafka详解:Kafka架构介绍

一. 工作流程 Kafka中消息是以topic进行分类的,Producer生产消息,Consumer消费消息,都是面向topic的。 Topic是逻辑上的改变,Partition是物理上的概念,每个Partition对应着一个log文件,该log文件中存储的就…

C/C++ makefile 支持多目录、多文件批量化模版

最近因工作需要,要尝试徒手撸一份makefile文件,这份模版支持批量化,也不针对某一个C/CPP文件指定规则: # Makefile for building: GuiDemo # by MT 2023-12-12 v1.0 # http://blog.csdn.net/wangningyu CC gcc CFLA…

qt 5.15.2连接postgresql9.4数据库功能

qt 5.15.2连接postgresql9.4数据库功能 执行后显示效果: "QSQLITE" "QODBC" "QODBC3" "QPSQL" "QPSQL7" connected success to postgresql9.4 "admin" "1"注意事项: 连接postgresql9.4…

SpringBoot接入企微机器人

1、企业微信创建机器人(如何创建不懂的请自行百度,很简单的),成功后能获取到一个Webhook地址:https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key693a91f6-7xxx-4bc4-97a0-0ec2sifa5aaa 2、创建一个SpringBoot项…

Leetcode 37 解数独

题意理解: 填充数独。每个九宫格内,9个数字各出现一个次,每行,每列上,9个数字各出现一次。数独部分空格内已填入了数字,空白格用 . 表示。 这道题要比N皇后问题更难: N皇后只放置N个皇后的位置&…

网络安全Web学习记录———CTF---Web---SQL注入(GET和POST传参)例题

小白初见,若有问题,希望各位大哥多多指正~ 我的第一道web类CTF题——一起来撸猫o(•ェ•)m-CSDN博客 最开始学习CTF里的web方向时,每次做了题遇到类似的老是忘记之前的解法,所以写点东西记录一下。听大哥的话,就从最…

企业微信旧版-新版网络连接错误,无法登录的解决方案

一.企业微微信无法登录故障 二.解决方案 1.网上的解决方案 **检查网络连接:**确保你的计算机正常连接到互联网。尝试打开其他网页,以确保网络连接正常。 **防火墙和安全软件:**某些防火墙或安全软件可能会阻止企业微信的正常连接。请确保你…

2023.12.13 关于 MySQL 复杂查询

目录 聚合查询 聚合函数 group by 子句 执行流程图 联合查询 笛卡尔积 内连接 外连接 左外连接 右外连接 自连接 子查询 单行子查询 多行子查询 EXISTS 关键字 合并查询 union on 和 union 的区别 聚合查询 聚合函数 函数说明COUNT([DISTINCT] expr)返回查询到…

Java 在 hibernate 中 getCurrentSession 和 openSession 的区别是什么?

Java 在 hibernate 中 getCurrentSession 和 openSession 的区别是什么? 在 Hibernate 中,getCurrentSession() 和 openSession() 是两种获取 Hibernate Session 的方法,它们的主要区别在于事务管理和线程关联性。 getCurrentSession()&…

人工智能与星际旅程:技术前沿与未来展望

人工智能与星际旅程:技术前沿与未来展望 一、引言 随着科技的飞速发展,人工智能(AI)在各个领域的应用越来越广泛。在星际旅程领域,AI也发挥着越来越重要的作用。本文将探讨人工智能与星际旅程的结合,以及…

ubuntu学习与Git学习

multirotor the first day ——12.10 install vmware-workstation and ubuntu swap sources and 换输入法 learn git github关联远程仓库 install and use Typora Git codemeaningmkdir test创建目录cd test进入目录git init初始化仓库ls ;ls -ah查看目录tou…

CMakeLists.txt与package.xml依赖项比较

这个是package.xml的依赖项 <license>Apache-2.0</license> <buildtool_depend>ament_cmake</buildtool_depend> <depend>curl</depend> <depend>python3-yaml</depend> <!-- these are needed to build fastrtps --> &…

Linux学习教程(第十二章 Linux系统管理)二

第十二章 Linux系统管理&#xff08;进程管理、工作管理和系统定时任务&#xff09;&#xff08;二&#xff09; 十、Linux 终止进程&#xff08;kill命令&#xff09; Linux kill命令详解&#xff1a;终止进程 kill 从字面来看&#xff0c;就是用来杀死进程的命令&#xff…

[.NET开发者的福音]一个方便易用的在线.NET代码编辑工具.NET Fiddle

前言 今天给大家分享一个方便易用的.NET在线代码编辑工具&#xff0c;能够帮助.NET开发人员快速完成代码编写、测试和分享的需求&#xff08;.NET开发者的福音&#xff09;&#xff1a;.NET Fiddle。 .NET Fiddle介绍 我们可以不用再担心环境与庞大的IDE安装的问题&#xff0…