🏆本文收录于「Bug调优」专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收藏&&订阅!持续更新中,up!up!up!!
问题描述
mmdetection运行mask rcnn,训练模型时运行train.py出现RuntimeError: CUDA out of memory. Tried to allocate 1.77 GiB(网上的教程都是在测试时出现这个问题,我为什么训练就出现了)
如上问题有来自我自身项目开发,有的收集网站,有的来自读者,如有侵权,立马删除。
解决方案
如下是上述问题的解决方案,仅供参考:
CUDA out of memory
错误表明你的GPU在训练过程中没有足够的内存来分配给所需的张量。这通常发生在模型太大、批量大小(batch size)太高或数据批量处理不当的情况下。以下是一些解决此问题的方法:
-
降低批量大小:
- 减少训练时的批量大小通常可以减少内存使用。
-
使用更多的GPU:
- 如果你有多个GPU可用,可以尝试分布训练任务到多个GPU上。
-
优化数据加载:
- 确保数据加载和预处理没有占用太多内存。使用
torch.utils.data.DataLoader
的num_workers
参数来调整数据加载的工作进程数。
- 确保数据加载和预处理没有占用太多内存。使用
-
模型简化:
- 如果Mask R-CNN模型太大,考虑使用一个更小的骨干网络或简化模型结构。
-
梯度累积:
- 如果你不能降低批量大小,可以尝试梯度累积技术。这意味着在几个小批量上执行前向传播,但不执行反向传播,直到累积了相当于原来批量大小的数据后才执行一次反向传播。
-
内存管理:
- 使用
torch.cuda.empty_cache()
来清理未使用的缓存内存,但请注意,这可能会影响性能。
- 使用
-
混合精度训练:
- 使用混合精度训练可以减少内存使用并可能加速训练。
-
检查数据类型:
- 确保你没有无意中使用
float64
或float16
代替float32
,因为float32
通常是深度学习中内存和精度的最佳折衷。
- 确保你没有无意中使用
-
环境检查:
- 确保你的CUDA和cuDNN环境配置正确,并且与PyTorch版本兼容。
-
使用ONNX:
- 尝试将模型转换为ONNX格式,并使用支持ONNX的优化后端运行模型。
-
模型分发:
- 对于非常大的模型,可以考虑使用模型分发技术,将模型的不同部分分布到不同的GPU上。
-
硬件升级:
- 如果上述方法都无法解决问题,可能需要升级硬件,比如使用具有更多内存的GPU。
由于你没有提供train.py
的具体命令和参数,我只能给出一般性的建议。如果你能提供更多关于你运行命令的细节,我可以给出更具体的建议。此外,查看MMDetection的文档和社区论坛,看看是否有其他用户遇到类似问题并分享了解决方案也是很有帮助的。
希望能够帮到有需要的你。
PS:如若遇到采纳如下方案还是未解决的同学,希望不要抱怨&&急躁,毕竟影响因素众多,我写出来也是希望能够尽最大努力帮助到同类似问题的小伙伴,即把你未解决或者产生新Bug黏贴在评论区,我们大家一起来努力,一起帮你看看,可以不咯。
若有对当前Bug有与如下提供的方法不一致,有个不情之请,希望你能把你的新思路或新方法分享到评论区,一起学习,目的就是帮助更多所需要的同学,正所谓「赠人玫瑰,手留余香」。
☀️写在最后
ok,以上就是我这期的Bug修复内容啦,如果还想查找更多解决方案,你可以看看我专门收集Bug及提供解决方案的专栏「Bug调优」,都是实战中碰到的Bug,希望对你有所帮助。到此,咱们下期拜拜。
码字不易,如果这篇文章对你有所帮助,帮忙给bugj菌来个一键三连(关注、点赞、收藏) ,您的支持就是我坚持写作分享知识点传播技术的最大动力。
同时也推荐大家关注我的硬核公众号:「猿圈奇妙屋」 ;以第一手学习bug菌的首发干货,不仅能学习更多技术硬货,还可白嫖最新BAT大厂面试真题、4000G Pdf技术书籍、万份简历/PPT模板、技术文章Markdown文档等海量资料,你想要的我都有!
📣关于我
我是bug菌,CSDN | 掘金 | InfoQ | 51CTO | 华为云 | 阿里云 | 腾讯云 等社区博客专家,C站博客之星Top30,华为云2023年度十佳博主,掘金多年度人气作者Top40,51CTO年度博主Top12,掘金/InfoQ/51CTO等社区优质创作者;全网粉丝合计 20w+;硬核微信公众号「猿圈奇妙屋」,欢迎你的加入!免费白嫖最新BAT互联网公司面试真题、4000G PDF电子书籍、简历模板等海量资料,你想要的我都有,关键是你不来拿。