基于可变形卷积的大规模视觉基础模型的探索

文章目录

基于可变形卷积的大规模视觉基础模型的探索
- 一、简介
- 二、亮点
- 三、项目功能
- 四、模型的应用
- - 1、图像模态任务性能
  - 2. 图文跨模态任务性能
- 五、源程序下载

一、简介

本模型包括大规模视觉基础模型"InternImage"，预训练算法"M3I-Pretraining"，通用解码器"Uni-Perceiver"系列，以及自动驾驶感知通用编码器"BEVFormer"系列。

二、亮点

1、高达30亿参数的最强视觉通用主干模型
2、图像分类标杆数据集ImageNet 90.1% Top1准确率，开源模型中准确度最高
3、物体检测标杆数据集COCO 65.5 mAP，唯一超过65 mAP的模型

三、项目功能

1、各类下游任务
2、支持[CVPR 2023 Workshop on End-to-End Autonomous Driving]
3、支持Segment Anything
4、支持提取模型中间层特征，详见
5、支持基于[DeepSpeed]的低成本训练
6、DCNv3算子预编译.whl包
7、 InternImage-H(1B)/G(3B)
8、支持分类/检测/分割TensorRT推理
9、 InternImage 系列分类代码
10、 InternImage-T/S/B/L/XL ImageNet-1K 预训练模型
11、 InternImage-L/XL ImageNet-22K 预训练模型
12、 InternImage-T/S/B/L/XL 检测和实例分割模型
13、 InternImage-T/S/B/L/XL 语义分割模型

四、模型的应用

1、图像模态任务性能

分类任务

<table border="1" width="90%"><tr align="center"><th colspan="1"> 图像分类</th><th colspan="2"> 场景分类 </th><th colspan="1">长尾分类</th></tr><tr align="center"><th>ImageNet</th><th>Places365</th><th>Places 205</th><th>iNaturalist 2018</th></tr><tr align="center"><th>90.1</th><th>61.2</th><th>71.7</th><th>92.3</th></tr>
</table>
<br>

检测任务

<table border="1" width="90%"><tr align="center"><th colspan="4"> 常规物体检测</th><th colspan="2">长尾物体检测 </th><th colspan="2">自动驾驶物体检测</th><th colspan="1">密集物体检测</th></tr><tr align="center"><th>COCO</th><th>VOC 2007</th><th>VOC 2012</th><th>OpenImage</th><th>LVIS minival</th><th>LVIS val</th><th>BDD100K</th><th>nuScenes</th><th>CrowdHuman</th></tr><tr align="center"><th>65.5</th><th>94.0</th><th>97.2</th><th>74.1</th><th>65.8</th><th>63.2</th><th>38.8</th><th>64.8</th><th>97.2</th></tr>
</table>
<br>

分割任务

<table border="1" width="90%"><tr align="center"><th colspan="3">语义分割</th><th colspan="1">街景分割</th><th colspan="1">RGBD分割</th></tr><tr align="center"><th>ADE20K</th><th>COCO Stuff-10K</th><th>Pascal Context</th><th>CityScapes</th><th>NYU Depth V2</th></tr><tr align="center"><th>62.9</th><th>59.6</th><th>70.3</th><th>86.1</th><th>69.7</th></tr>
</table>
<br></div>

2. 图文跨模态任务性能

**图文多模态任务**

<table border="1" width="90%"><tr align="center"><th colspan="1">图像描述</th><th colspan="2">微调图文检索</th><th colspan="1">零样本图文检索</th></tr><tr align="center"><th>COCO Caption</th><th>COCO Caption</th><th>Flickr30k</th><th>Flickr30k</th></tr><tr align="center"><th>148.2</th><th>76.4</th><th>94.8</th><th>89.1</th></tr>
</table>
<br></div>