一、环境搭建
1、使用hccn_tool配置昇腾训练卡的芯片网络,包括ip地址和掩码
命令原型
hccn_tool [-i %d] -ip -s [address %s] [netmask %s]
使用样例(配置两张卡):
hccn_tool -i 0 -ip -s address 192.168.2.10 netmask 255.255.255.0
hccn_tool -i 2 -ip -s address 192.168.2.11 netmask 255.255.255.0
hccn_tool使用指南参考:https://support.huawei.com/enterprise/zh/doc/EDOC1100368810/1b4fb6ff
配置成功后会在/etc/hccn.conf中有如下信息:
2、使用hccl_tools的工具生成Rank table文件,为json格式
hccl_tools工具所在路径:models: Models of MindSpore - Gitee.com
python hccl_tools.py --device_num "[0,1)"
运行如上命令会生成如下的Rank table文件,该ranktable文件,用于描述参与集合通信的集群信息,包括两张卡的Server,Device信息。
3、下载mindspore仓库上的开源model脚本运行验证。
更多HCCL资料请参考:集合通信简介-集合通信接口参考-CANN商用版8.0.RC1开发文档-昇腾社区