CVPR 2024最佳论文分享：打破刚性的超分辨率图像处理GNN

CVPR（Conference on Computer Vision and Pattern Recognition）是计算机视觉领域最有影响力的会议之一，主要方向包括图像和视频处理、目标检测与识别、三维视觉等。近期，CVPR 2024 公布了最佳论文。共有10篇论文获奖，其中2篇最佳论文，2篇最佳学生论文，2篇最佳论文题目和4篇最佳学生论文提名。本公众号推出CVPR 2024最佳论文专栏，分享这10篇最佳论文。

本文详细介绍了CVPR 2024最佳论文《Image Processing GNN: Breaking Rigidity in Super-Resolution》。该论文的第一作者为北京大学博士田雨川。论文针对超分辨率图像重建中的刚性问题，提出了一个新的图神经网络模型IPG，通过灵活的图结构提升超分辨率性能。本文由李杨撰写，审校为朱旺和陆新颖。

1.研究背景与解决的关键问题

超分辨率（Super-Resolution, SR）是指从低分辨率图像重建高分辨率图像。在现有的SR方法中，卷积神经网络（Convolutional Neural Network,CNN）和基于自注意力机制的Transformer模型是主要的两大类方法。然而，这些方法在操作上存在刚性问题：每个像素聚集相同数量的邻近像素信息，导致在细节丰富的图像部分上重建效果不佳。论文提出了一种基于图的超分辨率方法（Image Processing GNN，IPG），通过灵活的图结构（Graph Structure）打破传统方法的刚性限制，提升超分辨率性能。

2.方法

（1）模型架构

图1 IPG模型的总体架构

其中，多尺度聚合块（Multiscale Graph-aggregation Blocks，MGB）：负责从局部和全局尺度聚合信息。图聚合层（Graph Aggregation Layers，GAL）：执行图聚合操作，聚合局部和全局信息。图构建：在每个MGB块中，分别执行局部和全局采样，构建图结构，交替分配给GAL层进行聚合操作。

（2）优势

1）度灵活性

在传统方法中，每个像素聚集相同数量的邻域像素信息，这种“度等效刚性”在SR任务中显得不合理。论文提出了一种度灵活性的图解决方案，基于细节丰富的图像部分，设计了一种度变异图结构。具体来说，通过设计一个细节感知指标（Detail-rich Indicator Metric，DF），对图像节点的重要性进行度量，并将更高的度分配给细节丰富的节点。

2）像素节点灵活性

在图像图结构中，论文采用像素而非图像块作为图节点，以避免由于图块刚性导致的对齐问题。相比之下，像素节点能够更灵活地找到其相关像素进行聚合，从而避免像素对齐问题。

3）空间灵活性

论文提出了一种结合局部和全局采样的像素节点连接搜索策略，以聚合局部和全局信息。局部采样在节点周围的邻域中选择，构建局部图；全局采样在整个图像上以扩展模式选择，构建全局图。通过这种方式，图能够灵活地聚合局部和全局信息，从而提升SR性能。

4）图聚合

在图聚合过程中，论文采用边缘条件聚合（Edge-conditioned Aggregation），这种方法在保持邻域信息的同时，关注像素之间的关系，适用于低级视觉任务。通过在节点特征中加入相对位置编码，增强位置信息，进一步提升图聚合的效果。

3.实验结果

图2 IPG-S和IPG与SR基线在FLOPs和性能方面的比较

所提出的 IPG-S 和 IPG 与 SR 基线在浮点运算次数（Floating Point Operations per Second，FLOPs）和性能方面的比较。由于图结构的灵活性，IPG 在类似的 FLOPs下可以比其他 SR 模型高出0.1dB。值得注意的是，FLOPs仅反映理论计算成本，而不反映实际推理速度。

表1 IPG与其他SR方法在多个基准数据集上的比较