💡💡💡本文改进内容:Transformer架构 ConvNeXt 网络在图像分类和识别、分割领域大放异彩,同时对比 Swin-T 模型,在多种任务中其模型的大小和准确率均有一些提升,模型的 FLOPs 较大的减小且 Acc 有部分提高。
💡💡💡将此Transformer ConvNeXt 网络引入到YOLOv9,在NEU-DET将近涨点2个点。
yolov9-c-ConvNextBlock summary: 969 layers, 53137988 parameters, 53137956 gradients, 240.6 GFLOPs
改进结构图如下:
YOLOv9魔术师专栏