以下是一些常用于深度学习训练的 Linux 指令,可以帮助你高效管理和执行训练任务:
文件管理
- 查看当前目录内容:
ls
- 进入目录:
cd 路径/到/目录
- 创建新目录:
mkdir 新目录名称
- 删除文件或目录:
- 删除文件:
rm 文件名
- 删除目录(递归):
rm -rf 目录名
- 删除文件:
资源监控
- 查看当前系统资源使用情况:
top
- 查看 GPU 使用情况(NVIDIA GPU):
nvidia-smi
- 查看 CPU 和内存使用情况:
htop
文件传输
- 从本地复制文件到远程服务器:
scp 文件名 用户名@服务器地址:/目标路径
- 从远程服务器复制文件到本地:
scp 用户名@服务器地址:/文件路径 本地路径
环境管理
- 查看当前 Python 版本:
python --version
- 查看当前 PyTorch 版本:
python -c "import torch; print(torch.__version__)"
- 创建虚拟环境(使用 venv):
python -m venv 环境名称
- 激活虚拟环境:
- Linux/macOS:
source 环境名称/bin/activate
- Windows:
.\环境名称\Scripts\activate
- Linux/macOS:
深度学习训练相关
- 运行 Python 脚本:
python 脚本名.py
- 后台运行训练脚本并将输出保存到文件:
nohup python 脚本名.py > output.log 2>&1 &
- 查看训练日志文件:
tail -f output.log
GPU 分配
- 限制特定 GPU 的使用(CUDA_VISIBLE_DEVICES):
或export CUDA_VISIBLE_DEVICES=0 # 只使用 GPU 0
export CUDA_VISIBLE_DEVICES=0,1 # 使用 GPU 0 和 1
安装依赖
- 安装 Python 包:
pip install 包名
- 安装指定版本的 Python 包:
pip install 包名==版本号
- 安装 requirements.txt 中列出的依赖:
pip install -r requirements.txt
日志和调试
- 查看训练进度和系统信息(用于调试):
watch -n 1 nvidia-smi