工具下载链接:
https://codeload.github.com/wilicc/gpu-burn/zip/master
测试方法:
上传工具到操作系统下,解压缩工具,使用make命令完成编译(确保cuda环境变量已经配置成功、 nvcc -v
能显示结果)。
如果安装异常,请根据提示检查是否缺少依赖包,根据缺少的包安装依赖包比如gcc、g++
等。
指定CPU卡进行测试:
# export CUDA_VISIBLE_DEVICES=1 表示指定GPU1测试,该排序是以nvidia-smi显示的GPU编号来参考(编号是从0开始,客户4个GPU编号就是0,1,2,3)的。
指定GPU后,然后执行./gpu_burn 500
开始测试:
测试过程,再开个窗口执行nvidia-smi ,可以查看GPU当前状态,如下显示举例,查看当前跑的GPU1的状态
可以查看当前gpu burn测试进度,如下表示进度32.4%
测试完成后,会有记录当前性能数值,以及提示GPU卡是否OK。
注意事项和截图
1, 对每个GPU单独测试,覆盖T4和V100。
2, 截图保存每个GPU最终测试结果,可以参考下面这个截图,然后把各个测试都截图发回来。区分好T4和V100。
3, 测试过程,需要观察nvidia-smi
查看被测试的GPU 温度/功耗/Memory-Usage是否都用起来了。
4, 测试过程 ,并行开窗口观察频率,因为GPU如果温度达到门限,会降频保护,性能就会下降。
可以通过命令nvidia-smi dmon -s pucvmet
观察这项数值,如果降到一半左右,表明降频了。
也可以用 nvidia-smi dmon -s pucvmet |tee monitor.log
来保存log。
日常记录