数据并行分布式图:
梯度更新
分布式训练参数含义:
nnodes:节点的数量,通常一个节点对应一个主机,方便记忆,直接表述为主机
node_rank:节点的序号,从0开始
nproc_per_node:一个节点中显卡的数量
-master_addr:master节点的ip地址,也就是0号主机的IP地址,该参数是为了让 其他节点 知道0号节点的位,来将自己训练的参数传送过去处理
-master_port:master节点的port号,在不同的节点上master_addr和master_port的设置是一样的,用来进行通信
参考:
https://blog.csdn.net/weixin_45833431/article/details/130721985
https://www.youtube.com/watch?v=LuieZTc-hvU&t=203s (代码https://github.com/LambdaLabsML/examples/blob/main