CVPR2024 合成异常数据工业异常检测 RealNet

前言

本文分享一个基于扩散模型的异常检测框架，用于检测工业场景的缺陷检测或异常检测。

强度可控扩散异常合成：基于扩散过程的合成策略，能够生成不同强度的异常样本，模仿真实异常样本的分布。
异常感知特征选择：选择代表性和判别性的预训练特征子集，以提高异常检测性能并控制计算成本。
重建残差选择：自适应选择判别性残差，用于全面识别各级异常区域。

论文地址：RealNet: A Feature Selection Network with Realistic Synthetic Anomaly for Anomaly Detection

代码地址：https://github.com/cnulab/RealNet

强度可控扩散异常合成，简称为SDAS，生成的异常图像，如下图所示。

这些异常图像，都是基于正常图像生成的。
使用的仅仅是正常图像，通过SDAS生成与正常图像相似但带有异常特征的图像。

电子元件的正面视图，这些图像显示了明显的异常（如损坏、变形等）
螺丝的图像，可以看到一些异常样本（如弯曲、断裂等）
织物的图像，其中有一些织物图案显示了异常（如磨损、变形等）
铝箔的图像，有明显的异常（如刮痕、孔洞等）。

强度可控扩散异常合成：

新颖的合成策略：生成的样本更接近自然分布，并提供控制异常强度的灵活性。
使用DDPM扩散模型：在采样过程中引入扰动项，以生成低概率密度区域的样本。
模拟自然异常模式：如老化、结构变化、异常纹理和颜色变化。

一、模型框架

RealNet的模型框架，如下图所示：

输入图像数据
基于扩散模型，实现强度可控的异常数据生成。
生成的异常数据、原来的图像数据，一起进行训练。
图像数据，通过预训练模型进行特征提取，生成图像特征。
通过AFS结构，选择有助于异常检测的特征。
通过RRS结构，选择包含最多异常信息的重建残差特征。
选择出来的重建特征，送入判别器，输出异常检测信息。

二、核心内容——强度可控扩散异常合成（SDAS）

目的：

生成具有不同强度的异常图像。这样可以用来训练和评估异常检测模型，使它们在现实世界中表现得更好。

核心概念：

异常强度控制：通过一个参数 s来控制生成异常的强度。
扩散模型 (DDPM)：通过逐步添加和去除噪声来生成异常图像。

思路流程：

生成异常图像的过程是基于“扩散模型”（Diffusion Model）的技术，它通过逐步添加和去除噪声来生成新的图像。

这里的目标是通过控制噪声的强度，生成具有不同异常强度的图像。

异常图像生成，如下图所示：

在不同异常强度s下，生成的样本异常图像。
常强度设定在0.1和0.2之间，以覆盖更广泛的真实世界异常。

进阶加深理解——扩散原理

下面是详细版本介绍，如果上面懂了也可以忽略的。

如下图所示，使用不同合成方法生成的异常图像示例：

左侧使用具有不同异常强度的 SDAS 生成的示例。
右侧是使用各种异常合成方法生成的具有局部异常区域的示例。

深入加深理解细节

实验设置

超参数：设定 γ=0.001，在训练阶段停止μθ(xt,t) 的梯度。
预训练权重：使用预训练在ImageNet上的权重加速扩散模型的收敛。
训练时长：在单个NVIDIA GeForce RTX 3090上生成10,000张分辨率为256×256的图像需要约6小时。
SDAS和DDIM的实现：提供了三种选择用于确定性反向扩散过程的扰动方差：Σ=βt, Σ=βˉt, Σ=Σθ(xt,t)。
不透明度：在图像混合过程中，均匀采样不透明度 δ 从0.5到1.0。
硬件配置：在单个NVIDIA GeForce RTX 3090上，平均训练时间约为2小时。

三、核心关键点——异常感知特征选择 (AFS)

AFS 是一种用于从预训练网络中选择最有助于检测异常的特征的方法。

它的目标是减少特征维度，消除预训练偏差，并管理重建成本。

AFS 的作用

减少特征冗余：选择具有代表性的特征，避免重复信息。
增强判别能力：提高特征的代表性和判别性，提升异常检测性能。
控制计算成本：通过选择合适的特征维度，优化计算资源的使用。

思路流程：

AFS 通过以下步骤实现高效的特征选择：

定义三元组集合：异常图像、正常图像和异常掩膜。
提取预训练特征：从预训练网络的每一层提取特征。
计算特征差异：计算异常图像和正常图像之间的特征差异。
归一化和对齐：将差异归一化并对齐到异常掩膜的分辨率。
计算 AFS 损失：评估每个特征图的效果。
选择特征图：选择具有最小 AFS 损失的特征图用于重建。
多尺度特征选择：在不同层次上执行特征选择，获得多尺度特征。
通过这些步骤，AFS 有效地选择出最具代表性和判别性的特征，提升了异常检测的性能，同时优化了计算成本。

AFS 的可视化，从上到下，特征图分别来自第一层到第四层。

对于原始图像和合成异常图像，可视化了预训练 WideResNet50不同层中它们对应的特征图之间的归一化差异。
每个特征图都标有其在层中的索引和相应的 AFS 损失。从左到右，特征图的定位性能逐渐下降。
可视化直观地展示了预训练造成的定位偏差，表明并非所有特征图对异常检测和定位的贡献都相同，同时也强调了 AFS 的有效性。

四、核心关键点——重建残差选择 (RRS)

RRS 模块的目的是通过选择包含最多异常信息的重建残差来生成异常得分，从而有效地检测异常区域。

重建残差选择 (RRS) 总结

重建残差选择：通过选择最能代表异常信息的重建残差，提升检测准确性。
全局最大池化和平均池化：用于找到最重要的特征。
鉴别器：将特征图映射到图像级别分辨率以生成异常得分。
损失函数：结合重建损失和分割损失优化模型性能。

在 MVTec-AD 数据集上，进行消融实验：

RealNet在各种重建残差选择模式（Max、Avg 和Max&Avg）

五、模型设计细节

在四个数据集上进行评估模型，包括 MVTec-AD、MPDD、BTAD 和 VisA。

MVTec-AD：包含 5,354 张来自 15 类工业异常检测任务的图像，包括 10 个物体类别和 5 个纹理类别。
MPDD：包含 1,346 张来自 6 种工业金属产品的图像，具有不同的照明条件、不均匀的背景和每张图像中多个产品。包括产品的摆放方向、拍摄距离和位置的多样性。
BTAD：包含 3 种真实世界工业产品的图像。
VisA：包含 9,621 张正常图像和 1,200 张来自 12 个类别的异常图像。某些类别展示了复杂的结构，例如 PCB（印刷电路板），其他类别则包含需要检测的多个对象。

评价指标：