项目场景:
分布式训练中遇到这个问题,
问题描述
大概是没有启动并行运算???(
解决方案:
(1)首先看一下服务器GPU相关信息 进入pytorch终端(Terminal) 输入代码查看
python
torch.cuda.is_available()#查看cuda是否可用;
torch.cuda.device_count()#查看gpu数量;
torch.cuda.get_device_name(0)#查看gpu名字,设备索引默认从0开始;
torch.cuda.current_device()#返回当前设备索引;
Ctrl+Z退出
(2)cd进入要运行文件的上层文件夹
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5 python -m torch.distributed.launch --nproc_per_node=6 #启动并行运算
加上要运行的文件以及相关配置
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5 python -m torch.distributed.launch --nproc_per_node=6 src_nq/create_examples.py --vocab_file ./bert-base-uncased-vocab.txt \--input_pattern "./natural_questions/v1.0/train/nq-train-*.jsonl.gz" \--output_dir ./natural_questions/nq_0.03/\--do_lower_case \--num_threads 24 --include_unknowns 0.03 --max_seq_length 512 --doc_stride 128
问题解决