CVPR 2024最佳论文分享:打破刚性的超分辨率图像处理GNN
CVPR(Conference on Computer Vision and Pattern Recognition)是计算机视觉领域最有影响力的会议之一,主要方向包括图像和视频处理、目标检测与识别、三维视觉等。近期,CVPR 2024 公布了最佳论文。共有10篇论文获奖,其中2篇最佳论文,2篇最佳学生论文,2篇最佳论文题目和4篇最佳学生论文提名。本公众号推出CVPR 2024最佳论文专栏,分享这10篇最佳论文。
本文详细介绍了CVPR 2024最佳论文《Image Processing GNN: Breaking Rigidity in Super-Resolution》。该论文的第一作者为北京大学博士田雨川。论文针对超分辨率图像重建中的刚性问题,提出了一个新的图神经网络模型IPG,通过灵活的图结构提升超分辨率性能。本文由李杨撰写,审校为朱旺和陆新颖。
1.研究背景与解决的关键问题
超分辨率(Super-Resolution, SR)是指从低分辨率图像重建高分辨率图像。在现有的SR方法中,卷积神经网络(Convolutional Neural Network,CNN)和基于自注意力机制的Transformer模型是主要的两大类方法。然而,这些方法在操作上存在刚性问题:每个像素聚集相同数量的邻近像素信息,导致在细节丰富的图像部分上重建效果不佳。论文提出了一种基于图的超分辨率方法(Image Processing GNN,IPG),通过灵活的图结构(Graph Structure)打破传统方法的刚性限制,提升超分辨率性能。
2.方法
(1)模型架构
图1 IPG模型的总体架构
其中, 多尺度聚合块(Multiscale Graph-aggregation Blocks,MGB):负责从局部和全局尺度聚合信息。图聚合层(Graph Aggregation Layers,GAL):执行图聚合操作,聚合局部和全局信息。图构建:在每个MGB块中,分别执行局部和全局采样,构建图结构,交替分配给GAL层进行聚合操作。
(2)优势
1)度灵活性
在传统方法中,每个像素聚集相同数量的邻域像素信息,这种“度等效刚性”在SR任务中显得不合理。论文提出了一种度灵活性的图解决方案,基于细节丰富的图像部分,设计了一种度变异图结构。具体来说,通过设计一个细节感知指标(Detail-rich Indicator Metric,DF),对图像节点的重要性进行度量,并将更高的度分配给细节丰富的节点。
2)像素节点灵活性
在图像图结构中,论文采用像素而非图像块作为图节点,以避免由于图块刚性导致的对齐问题。相比之下,像素节点能够更灵活地找到其相关像素进行聚合,从而避免像素对齐问题。
3)空间灵活性
论文提出了一种结合局部和全局采样的像素节点连接搜索策略,以聚合局部和全局信息。局部采样在节点周围的邻域中选择,构建局部图;全局采样在整个图像上以扩展模式选择,构建全局图。通过这种方式,图能够灵活地聚合局部和全局信息,从而提升SR性能。
4)图聚合
在图聚合过程中,论文采用边缘条件聚合(Edge-conditioned Aggregation),这种方法在保持邻域信息的同时,关注像素之间的关系,适用于低级视觉任务。通过在节点特征中加入相对位置编码,增强位置信息,进一步提升图聚合的效果。
3.实验结果
图2 IPG-S和IPG与SR基线在FLOPs和性能方面的比较
所提出的 IPG-S 和 IPG 与 SR 基线在浮点运算次数(Floating Point Operations per Second,FLOPs)和性能方面的比较。由于图结构的灵活性,IPG 在类似的 FLOPs下可以比其他 SR 模型高出0.1dB。值得注意的是,FLOPs仅反映理论计算成本,而不反映实际推理速度。
表1 IPG与其他SR方法在多个基准数据集上的比较
表1展示了IPG与其他SR方法在多个基准数据集上的详细比较。结果显示,IPG在峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和结构相似性(Structural Similarity,SSIM)指标上均取得了显著的提升。
4.可视化
图3与最新 SR 基线的视觉比较
图3展示了在Urban100数据集上的可视化结果对比。可以看到,IPG模型在细节重建方面表现优异,重建出的图像细节更加清晰,伪影更少。
5. 结论
论文提出了一种基于图的超分辨率方法IPG,通过灵活的图结构打破传统方法的刚性限制,提升超分辨率性能。实验结果表明,IPG在多个基准数据集上的表现优于现有的SR模型。论文设计了度灵活图、像素节点和空间灵活性策略,使得IPG能够充分利用图的灵活性,在超分辨率任务中取得了显著的提升。
扫码关注我们
微信号:人工智能怎么学