在集群中使用deepspeed如果端口被占用可以使用deepspeed参数更改
这一次G老师不好使了
在集群中使用deepspeed默认的端口号29500被占用,显示更改居然不起作用
G老师给的方法也不好使
#!/bin/bash
MASTER_ADDR=localhost
MASTER_PORT=29501 # 选择一个未被占用的端口
export MASTER_ADDR
export MASTER_PORT
deepspeed your_training_script.py --deepspeed_config your_deepspeed_config.json
MASTER_ADDR=localhost MASTER_PORT=29501 deepspeed transformer_train_R2Gen.py
这些命令居然都不好使,还是CSDN上的回答数据稀疏度更好,G老师墨迹来墨迹去都是让我该环境变量,结果通通不好使。最终还是这个命令一招见效。使用就将 29500 改成 29501
deepspeed --master_port 29500 --num_gpus=2 run_s2s.py \
--deepspeed ds_config.json