【Python】科研代码学习:十三 Accelerate
- Accelerate
- 统一的加速接口
- 修改训练代码 (torch.nn)
- 更简单的使用
Accelerate
- 【HF官网-Doc-Accelerate:API】
HF Accelerate
是一个库,能够让PyTorch
代码添加几行代码之后,就能在分布式配置中运行(比如多Gpus卡) - 前言:建议
Python3.8+
pip install accelerate
统一的加速接口
- 对任意给定的训练框架
deepspeed / FSDP
等,都提供了一个统一的加速接口。 - 首先可以执行如下命令,它会在
Accelerates
缓存文件夹中,创建一个default_config.yaml
文件。它存储训练环境的配置。
accelerate config
- 在配置好环境后,可以使用
accelerate test
来测试分布式环境。 - 然后就可以调用如下命令,加速代码了
accelerate launch path_to_script.py --args_for_the_script
修改训练代码 (torch.nn)
- 我们在代码中需要少数代码的修改
主要是实例化一个accelerator
加速器,修改device
,对model, optimizer, dataloader, scheduler
做一个处理,还有反向传播。
注意看下面删除的两行和增加的其他行。
+ from accelerate import Accelerator
+ accelerator = Accelerator()+ device = accelerator.device
+ model, optimizer, training_dataloader, scheduler = accelerator.prepare(
+ model, optimizer, training_dataloader, scheduler
+ )for batch in training_dataloader:optimizer.zero_grad()inputs, targets = batch
- inputs = inputs.to(device)
- targets = targets.to(device)outputs = model(inputs)loss = loss_function(outputs, targets)
+ accelerator.backward(loss)optimizer.step()scheduler.step()
更简单的使用
- (从学长那里听来的)
貌似加速库很麻烦,要改很多代码,比如如何制定哪几张卡作为Trainer
训练呢?
我们只要使用deepspeed + Accelerate
,这两个工具即可 - 首先,这两个环境都安装一下
然后,在.sh
文件中,直接增加环境变量
注意,CUDA_DEVICE_ORDER
这里不能加双引号;右侧可加可不加;等号左右不能有空格
export CUDA_DEVICE_ORDER="PCI_BUS_ID"
export CUDA_VISIBLE_DEVICES="1,2"
然后直接
accelerate launch --config_file configs/deepspeed_train_config.yaml\run_python_code.py
即可,里面的代码就无需修改了。