NVIDIA GPU 显存未正常释放
问题描述
paddlepaddle 训练过程出现问题中断等导致GPU显存没有释放。
情况1:
使用nvidia-smi -l
查看显存占用情况,输出结果中没有显示PID,但是有显存占用。
解决方法
- 使用
killall python
直接kill掉所有python进程。 - 假如运行此命令后仍然有上述问题使用下面命令
fuser -v /dev/nvidia0 |grep [0-9]
得到显卡0的进程的PID(红色数字)
复制PID并使用kill -9
杀掉进程
example :
kill -9 2304558 2304560 2304562 2304564 2304566 2304568 2304570 2304572 2304574 2304576 2304578 2304580 2304885 2304887 2304889 2304891 2304893 2304895 2304897 2304899 2304901 2304903 2304905 2304907 2306892 2306894 2306896 2306898 2306900 2306902 2306904 2306906 2306908 2306910 2306912 2306914
结果
重新nvidia-smi -l 1