提示:本文是我cuda教程部分代码和内容构成,严禁侵权!
文章目录
- 前言
- 一、核函数index寻找
- 1、3d grid与1d block索引
- 2、1d grid, 2d block索引
- 二、kernel函数实例
- 三、性能优化(内存)
- 四、原子操作
- 五、流stream
- 六、cuda处理nms编码
- 七、cuda处理yolo算法输出编码
- 八、cuda处理yolo算法整个过程
- 九、yolo的tensorrt部署(前后处理的cpu版与gpu版)
- 总结
前言
随着人工智能的发展与人才的内卷,很多企业已将深度学习算法的C++部署能力作为基本技能之一。面对诸多arm相关且资源有限的设备,往往想更好的提速,满足更高时效性,必将更多类似矩阵相关运算交给CUDA处理。同时&#x