20240708 视觉大模型

参考网站：

万字长文带你全面解读视觉大模型 - 知乎

一.DINO

1."YOLO"（You Only Look Once）和"DINO"（DIstillation of knowledge）是两种不同的模型，针对不同的任务和学习目标。以下是它们学习到的特征的主要区别：

任务目标：
- YOLO： YOLO是一种目标检测模型，旨在在图像中检测和定位多个物体。YOLO的训练目标是通过回归网络预测图像中每个物体的边界框及其类别概率。
- DINO： DINO主要是一种自监督学习方法，专注于学习图像表示。DINO的目标是通过对比损失来训练模型，使相似的图像在嵌入空间中更加接近。
学习方法：
- YOLO： YOLO使用有监督学习，通过最小化目标检测任务中的损失函数，使得模型能够准确地定位和分类图像中的物体。
- DINO： DINO采用自监督学习方法，通过对比损失来约束网络学习图像特征，使得相似图像的表示更加接近。
特征表示：
- YOLO： YOLO学习用于目标检测的图像特征，这些特征应该有助于准确地定位和分类图像中的物体。
- DINO： DINO学习的是通用的图像表示，旨在捕捉图像中的语义和结构信息。这些表示可以在多个任务中使用，而不仅仅局限于目标检测。
应用领域：
- YOLO： YOLO主要用于目标检测任务，在实时目标检测和物体定位方面表现出色。
- DINO： DINO主要关注图像表示学习，可以用于多个领域，包括图像分类、特征学习等。

总体而言，YOLO和DINO是为不同任务设计的模型，它们学习的特征主要取决于其任务目标。 YOLO侧重于目标检测，而DINO侧重于通用图像表示学习。

2.DINO（Distillation via Noisy-Labels）模型是一种基于自监督学习的视觉表示学习方法，它主要依靠教师-学生（Teacher-Student）架构进行训练。下面是DINO模型的大致算法实现过程：

数据预处理：
- 对输入图像进行数据增强，生成两个视图（View1和View2），这两个视图是对同一张原始图像的不同变换，例如随机裁剪、翻转、色彩变换等。
模型结构：
- 设定两个相同的模型：教师网络（Teacher）和学生网络（Student），它们都采用Transformer或者类似结构，如Vision Transformer (ViT)。
特征提取：
- 分别将两个视图输入到教师网络和学生网络中，提取出对应的特征表示。
教师网络更新：
- 教师网络的参数是对学生网络参数的指数移动平均（Exponential Moving Average, EMA），在训练过程中，教师网络的参数更新较为保守，以维持稳定的学习信号。
对比学习：
- 计算学生网络对View1产生的特征向量与教师网络对View2产生的特征向量之间的 cosine相似度。
- 通过对比学习 loss，让学生网络模仿教师网络对同一张图片不同视图的特征表示，促使两个网络学习到一致的特征表示。
正则化与噪声标签：
- DINO模型通过引入噪声标签（noisy labels）的概念，即在网络内部生成伪标签，来增强模型对噪声和多样性的适应能力。
- 使用归一化温度softmax函数对教师网络的特征向量进行处理，模拟软标签，作为学生网络学习的目标。
训练过程：
- 学生网络的训练目标是既要模仿教师网络的特征表示，又要保持不同图片之间的特征差异性。
- 更新学生网络的参数，最小化对比学习loss以及可能的正则化loss。
迭代训练：
- 重复以上步骤，不断迭代训练，直到模型收敛。

通过这种训练方式，DINO模型能够在没有人工标注的情况下学习到强大的视觉特征表示，这些特征可以用于下游的多项视觉任务，如图像分类、目标检测等。

3.DINO（Distillation with Noisy-Labels）和DINOv2是在自监督学习领域中的连续迭代版本，它们都采用了对比学习和教师-学生机制来训练无监督视觉模型。尽管两者的核心思想类似，但DINOv2通常会在以下几个方面有所改进或变化：

性能优化：
- DINOv2可能针对DINO的基础架构进行了优化，提升了模型在各种视觉任务上的性能表现，比如提高了模型在标准基准测试上的准确性或扩展了模型对于复杂视觉场景的理解能力。
算法改进：
- 可能引入了新的训练策略、损失函数改进或是对模型架构的调整，以促进更好的自监督学习效果和特征表达能力。
知识蒸馏：
- DINOv2可能进一步强化了知识蒸馏的过程，例如，更有效地利用大型预训练模型的知识来指导小型模型的训练，使得小型模型也能获得类似的表征学习能力。
数据效率与泛化能力：
- DINOv2可能在提高数据利用效率、减少训练资源需求以及提升模型在未见过的数据上的泛化能力方面做了针对性改进。
额外功能或应用场景：
- 随着技术发展，DINOv2可能会添加新的功能特性，比如更适用于特定任务的微调策略，或者是拓展至其他应用场景，如跨模态学习、实时推理等。

由于具体细节依赖于实际发布的论文和技术文档，上述区别是基于一般迭代升级的常见方向。要获得DINO与DINOv2之间精确的技术差异，请查阅相关的官方论文或GitHub项目页面以获取最新和详尽的说明。

全网最强 DINOv2 论文解读 - 知乎

从 DETR 到 DINO 的进化过程 - 知乎

DINOv2：无需微调，填补 SAM 的空白，支持多个下游任务 - 知乎

DINOv2 by Meta AI

Search · DINOv2 · GitHub

检测：

https://github.com/IDEA-Research/GroundingDINO

二.DEIT

https://github.com/facebookresearch/deit/tree/colab

DEIT（Data-efficient Image Transformers）并非一个检测模型，而是用于图像分类的模型，它基于Vision Transformer（ViT）架构，但更注重于数据效率。不过，我们可以讨论一下DEIT在图像分类任务上的实现过程，因为检测模型如DETR（DEtection TRansformer）也是基于Transformer结构的，其基本思路有一定的相似性。

DEIT模型算法实现过程概述如下：

数据预处理：
- 首先，将输入图像分割成多个固定大小的patches（块），每个patch被线性嵌入成一个向量。
- 将这些嵌入向量拼接在一起，形成一个1D序列，类似于文本中的token序列。
位置编码：
- 为了保留图像的二维结构信息，为每个patch向量附加一个位置编码，该编码反映了patch在原始图像中的位置。
Transformer编码器：
- 将带有位置编码的patch序列送入Transformer的编码器，编码器通过多层自注意力机制学习patch之间的关系和全局上下文信息。
分类头：
- 编码器输出的序列经过一层或多层全连接层（分类头），生成对应于每个类别的logits（概率分布）。
训练过程：
- 使用交叉熵损失函数进行训练，模型的目标是学习如何根据输入图像的patch序列预测正确的类别标签。
- DEIT特别注重在有限训练数据上的表现，可能会使用一些数据增强技术，以及特定的训练策略来提高模型的数据效率。

在目标检测任务中，DETR等模型会在此基础上引入一个解码器部分，并利用一个特殊的目的token（如CLS token）来生成检测框和类别标签，而DEIT专注于图像分类任务，不涉及检测框的生成。如果你感兴趣的是DETR这样的检测模型，其过程会更为复杂，包括了预测固定数量的物体框和类别标签等步骤。

DEIT（Data-efficient Image Transformers）模型在训练时采用了一种适应于Transformer架构的数据结构。具体来说，它遵循以下流程：

Patch Embedding:
- 首先，输入的RGB图像会被分割成若干个小的非重叠 patches（通常为正方形）。
- 每个patch被线性投影（嵌入）成一个低维向量，这一过程类似词嵌入在自然语言处理中的作用。
Sequence Formation:
- 所有patch嵌入向量按照它们在原始图像中的位置顺序排列，形成一个1D序列，就像文本中的单词序列一样。
Positional Encoding:
- 由于Transformer对输入序列的位置信息没有内在感知能力，因此，每个patch嵌入向量都会附加一个位置编码，以确保模型能捕捉到图像的空间布局信息。
Transformer Encoder:
- 这个形成的序列随后被馈送到Transformer的编码器模块中，编码器由多层自注意力和前馈神经网络组成，用于捕获patch间的长程依赖关系和全局上下文。
Distillation Token (如果适用):
- 在DEIT中，为了优化数据效率并改进训练过程，可能还会引入一个额外的“蒸馏Token”，它可以聚合整个图像的信息，并与教师模型的输出进行比较，从而通过知识蒸馏技术来指导学生模型的学习。
Training Process:
- DEIT在训练时使用标准的监督学习方法，即在ImageNet等大规模图像分类数据集上，以每个图像对应的类别标签作为监督信号。
- 特别地，DEIT关注于在有限的训练样本上达到良好的性能，可能运用数据增强、蒸馏技术和其他训练策略来提升模型的数据效率。

总之，DEIT模型训练时的数据结构是一种转换后的、适合于Transformer处理的序列化形式，其中包含了空间位置信息，并通过自注意力机制来提取图像特征和进行分类。

三.DETR:

DETR（DEtection TRansformer）模型在训练时采用了一种新颖的数据结构和训练方式，主要是为了实现端到端的目标检测。以下是DETR模型训练时的数据结构和流程：

数据预处理：
- 输入的RGB图像首先会被分割成多个patches（通常使用卷积神经网络提取特征图），然后将这些特征图展平成1D向量序列。
- 与此同时，创建一组固定数量的“object queries”（目标查询向量），它们作为额外的序列元素，用于预测图像中的目标边界框和类别。
位置编码：
- 类似于BERT等Transformer模型，DETR也为图像patches和object queries添加了位置编码，以便模型理解它们在图像中的位置信息。
Transformer结构：
- 将图像patches和object queries组成的序列输入到Transformer模型中。Transformer包含编码器和解码器部分。
- 编码器负责处理图像patches序列，学习图像的全局上下文信息。
- 解码器通过自注意力机制，结合编码器的输出和object queries，生成一组边界框坐标和类别预测。
集合预测：
- DETR模型的输出不是连续的边界框预测，而是一个有限长度的有序列表，列表中的每个元素代表一个可能的目标，并包含其类别和坐标信息。
- 使用 Hungarian 匹配算法将预测结果与 ground truth 进行匹配，以计算训练损失。
损失函数：
- DETR使用了一种称为“集合损失”（Set Prediction Loss）的方法，它包括 bounding box 的L1损失和类别预测的交叉熵损失，同时加入了一种匹配成本来优化预测结果与真实标签的匹配。
训练过程：
- 在训练期间，模型的目标是通过优化上述损失函数，使得预测的边界框和类别尽可能接近真实的标注信息。

总之，DETR模型通过Transformer结构处理图像和object queries的序列化表示，并利用集合预测和匈牙利匹配算法优化训练过程，从而实现了一种全新的、无需 anchor boxes 和非极大值抑制（NMS）的目标检测方法。

四.

Swin Transformer是一种专门针对计算机视觉任务优化的Transformer架构，它可以被视为Vision Transformer（ViT）在计算效率和性能上的一个重要升级版。下面我将以通俗易懂的语言为您讲解Swin Transformer的工作原理：

1. Transformer的基础 Transformer原本是用于自然语言处理（NLP）的模型，它通过自注意力机制来理解和处理文本序列。而在Swin Transformer中，这种自注意力机制被巧妙地应用于图像处理，使模型能够理解图像中的各个部分间的关联。

2. 多尺度感知 在图像中，物体大小各异，传统的Transformer直接作用于图像像素时计算量巨大。Swin Transformer引入了层级结构和滑动窗口（Shifted Window）的概念，实现了对图像进行多尺度分析。模型会将大图像切割成多个小窗口，在每个窗口内部计算自注意力，同时通过跨窗口连接机制整合不同窗口间的信息。

3. 层级特征提取 类似于CNN（卷积神经网络）中的特征金字塔网络（FPN），Swin Transformer构建了一个层级结构，随着网络层数加深，特征图的空间分辨率逐渐减小，但感受野（能“看”到的图像范围）增大，这样既能捕捉到局部细节又能把握全局上下文。

4. Shifted Window Attention 不同于全局自注意力，Swin Transformer在每个层次中，窗口内的像素会通过自注意力机制相互作用，而在相邻层之间，窗口会进行一定的位移（Shift），使得窗口之间的信息得以流动，从而实现了在保持较高效率的同时，兼顾了局部和全局信息的融合。

5. 效率优化 通过局部窗口注意力和窗口间的信息传递机制，Swin Transformer大幅降低了计算复杂度，尤其适合处理高分辨率的图像。这样一来，即使是大规模图像也能在合理的时间内完成高效处理。

总结来说，Swin Transformer就像一位细心的画家，他不是一次性看完整幅画作（全局注意力），而是分块、分层地观察并描绘画面细节（局部窗口注意力），并且在绘画过程中，他会不断调整视角（窗口位移），确保不同区块之间的协调性，从而绘制出既细致入微又整体连贯的艺术作品（高精度的图像识别结果）。