昇腾Profiling性能分析工具用于采集和分析运行在昇腾硬件上的AI任务各个运行阶段的关键性能指标, 用户可根据输出的性能数据,快速定位软、硬件性能瓶颈,提升AI任务性能分析的效率。具体使用方法请参考:
本期分享几个关于Profiling性能分析工具使用过程中的常见问题案例,并给出原因分析及解决方法。
1 执行msprof命令未采集到AI Core Metrics数据
故障现象
执行msprof命令后,屏幕显示性能解析数据,但无AI Core Metrics数据。查看$HOME/ascend/log/plog路径下Host侧日志信息,有如图1-1所示内容。其中,$HOME表示Host侧用户根目录。
图1.1 aclInit函数初始化日志信息
故障原因
通过日志分析,可能原因为代码实现时,调用aclInit函数在aclrtSetDevice函数后面,造成Runtime无法下发AI Core性能数据采集开关任务,造成无法采集AI Core数据。
故障处理
针对上述分析情况,请调整代码,确保aclInit函数最先调用,然后重新编译代码、执行Profiling。
2 磁盘满导致性能数据采集任务无法下发
故障现象
训练场景下发性能数据采集过程中,出现如图2-1所示错误提示。
图2.1 错误提示:No usable temporary directory
故障原因
出现“No usable temporary directory”错误提示,可能原因是系统盘空间已满。
故障处理
请参考以下流程处理该问题:
-
清理系统盘目录下无用文件。
执行df -h命令查询磁盘是否有剩余空间。
----结束
3 性能数据老化导致无法正常解析数据
故障现象
性能数据解析失败。
故障原因
当性能数据超过storage_limit参数限定的最大值或剩余磁盘空间较小时,最早的性能数据开始自动老化删除。
默认情况下,解析从--iteration-id=1开始,而老化同样从--iteration-id=1开始,故当第1轮迭代或前面几轮迭代的数据被老化后,未指定--iteration-id或指定前面几轮迭代进行解析时,解析将会失败。
故障处理
-
执行./msprof --query=on --output=<dir>命令查看最大迭代轮数(Iteration Number)。
-
解析迭代ID最大的性能数据。
4 Ascend PyTorch Profiler采集过程中提示:Incorrect schedule
故障现象
使用Ascend PyTorch Profiler接口采集PyTorch性能数据过程中,打印“Incorrect schedule”提示信息,如下图所示:
添加图片注释,不超过 140 字(可选)
profiler.py: Incorrect schedule: Stop profiler while current state is WARMUP which will result in enpty parsed data.
添加图片注释,不超过 140 字(可选)
profiler.py: Incorrect schedule: Stop profiler while current state is RECORD which may result in incomplete parsed data.
添加图片注释,不超过 140 字(可选)
profiler.py: Stop profiler while current state is RECORD_AND_SAVE, perhaps the scheduling sycle has not yet completed.
故障原因
设置的schedule参数不合理,导致Profiler尚未完成设置的schedule周期就提前退出。如下面的案例所示:
实际模型训练step为1,但是设置schedule中skip_first=1, active=2,此时Profiler在刚好处于RECORD状态(准备好采集),但是训练进程已经退出,所以导致性能数据缺失或者为空的情况。
故障处理
检查设置的schedule是否正确,确保Profiler完成schedule后还有足够的step用于性能数据采集。
5 更多介绍
[1]昇腾文档中心:昇腾社区-官网丨昇腾万里 让智能无所不及
[2]昇腾社区在线课程:开发者主页-昇腾社区
[3]昇腾论坛:https://www.hiascend.com/forum