摘要
https://arxiv.org/pdf/2412.14598
非语义特征或语义无关特征,与图像上下文无关但对图像篡改敏感,被认为是图像篡改定位(IML)的重要证据。由于无法获得人工标签,现有工作依赖于手工方法提取非语义特征。手工非语义特征损害了IML模型在未见或复杂场景中的泛化能力。因此,对于IML,一个亟待解决的问题是:如何自适应地提取非语义特征?非语义特征与上下文无关且对篡改敏感。也就是说,在一张图像中,除非发生篡改,否则这些特征在不同图像块之间是一致的。那么,图像块之间稀疏且离散的交互就足以提取非语义特征。然而,不同图像块的图像语义差异巨大,需要图像块之间密集且连续的交互来学习语义表示。因此,在本文中,我们提出了一种稀疏视觉Transformer(SparseViT),它将ViT中的密集全局自注意力重新定义为稀疏离散的方式。这种稀疏自注意力打破了图像语义,迫使SparseViT自适应地为图像提取非语义特征。此外,与现有的IML模型相比,稀疏自注意力机制极大地减少了模型大小(最大在浮点运算次数上减少了 80 % 80\% 80%),实现了惊人的参数效率和计算量减少。大量实验表明,在不使用任何手工特征提取器的情况下,SparseViT在基准数据集上的泛化能力和效率均优于其他模型。
代码链接 - https://github.com/scu-zjz/SparseViT
引言
随着图像编辑工具和图像生成技术的快速发展,图像篡改变得异常方便。为了应对这一趋势,研究人员开发了图像篡改定位(IML)技术来识别图像中的特定篡改区域。由于篡改后图像上不可避免地会留下伪影(篡改痕迹),这些伪影可以分为语义和非语义(语义无关)特征。语义无关特征是指突出显示低级伪影信息的特征,这些特征与图像的语义内容无关。这些特征在图像的篡改区域和非篡改区域之间的分布存在显著差异(Guillaro等,2023)。现有的骨干网络(Simonyan和Zisserman,2014)(Wang等,2020)(Dosovitskiy等,2020),主要为语义相关任务而设计,在提取篡改图像的语义特征方面非常有效。对于提取非语义特征,大多数现有方法依赖于手工特征提取器(Zhou等,2018)(Bayar和Stamm,2018)(Cozzolino和Verdoliva,2019)。如表1所示,几乎所有现有的IML模型都遵循“语义分割骨干网络”结合“手工非语义特征提取”的设计。
然而,这种方法需要对不同的非语义特征采用自定义提取策略,在提取这些特征时缺乏适应性。因此,这种方法在提高模型适应未知场景的能力方面受到限制。与传统的手工提取非语义特征的方法不同,我们提出了一种自适应机制来提取篡改图像中的非语义特征。我们认识到,图像的语义特征表现出强烈的连续性和显著的上下文相关性(Wang等,2018),这意味着局部语义特征往往不足以表示图像的全局语义。因此,构建全局语义特征需要局部区域之间紧密且连续的交互。相比之下,图像的非语义特征,如频率和噪声,对篡改高度敏感,并且在图像的不同区域之间表现出更大的独立性。这一特性使我们能够采用稀疏编码为非语义特征建立全局交互,利用其敏感性来检测篡改。
基于这一概念,我们引入了SparseViT,这是一种新颖的稀疏视觉Transformer。SparseViT采用稀疏自注意力机制,对ViT中的密集全局自注意力进行重新设计,以更好地适应非语义特征的统计特性。通过稀疏处理,自注意力机制选择性地抑制语义信息的表达,专注于捕获与图像篡改相关的非语义特征。SparseViT采用分层策略,在不同层级应用不同程度的稀疏性,以精细地提取非语义特征。我们还设计了一个多尺度融合模块(LFF)作为解码器,该模块整合了在不同稀疏级别提取的特征图,丰富了模型对跨多个尺度的非语义内容的理解,并增强了其鲁棒性。这种设计使SparseViT能够专注于学习对篡改敏感的非语义特征,同时忽略语义特征,从而实现对图像中非语义特征的自适应提取。
据我们所知,目前尚无专门为非语义特征自适应提取而设计的模型。SparseViT可以视为非语义特征自适应提取方面的开创性工作。我们的所有实验均在同一评估协议下进行。所有模型均在CAT-Net(Kwon等人,2021)数据集上进行训练,并在多个基准数据集上进行测试。我们提出的方法在多个基准数据集上展示了出色的图像篡改定位能力,与其他模型相比,我们的模型取得了最佳的平均性能。综上所述,我们的贡献如下:
- 我们发现,图像中的语义特征需要通过持续的局部交互来构建全局语义,而非语义特征由于其局部独立性,可以通过稀疏编码实现全局交互。
- 基于语义和非语义特征的独特行为,我们提出使用稀疏自注意力机制从图像中自适应提取非语义特征。
- 为了解决传统多尺度融合方法的不可学习性问题,我们引入了一种可学习的多尺度监督机制。
- 我们提出的SparseViT在不依赖特征提取器的情况下保持了参数效率,并在四个公共数据集上取得了最先进的(SoTA)性能和出色的模型泛化能力。
相关工作
伪影提取
早期的图像篡改定位方法主要依赖于手工设计的卷积核来从图像中提取非语义特征。例如,BayarConv(Bayar和Stamm,2018)设计了一个具有高通滤波器结构的卷积核,以捕获图像中的噪声模式。RGB-N(Zhou等人,2018)引入了SRM滤波器来捕获噪声分布的差异,从而表示非语义特征。随着深度学习在各种计算机视觉和图像处理任务中的成功,许多最近的技术也采用了深度学习来解决图像篡改定位问题(Zhou等人,2018)。然而,由于现有为语义相关任务设计的网络在表示非语义特征方面的局限性,目前几乎所有的篡改定位方法都依赖于语义分割骨干网络结合手工设计的非语义特征提取。
例如,ManTra-Net(Wu,AbdAlmageed和Natarajan,2019)和SPAN(Hu等人,2020)都将BayarConv和SRM作为其模型的第一层。基于Transformer架构的ObjectFormer(Wang等人,2022)还采用了一个手工设计的DCT模块来提取高频特征,从而能够更好地捕获图像中的非语义特征。TruFor(Guillaro等人,2023)使用手工设计的Noiseprint(Cozzolino和Verdoliva,2019)特征提取器,并通过对比学习,利用这些提取的特征来增强其篡改检测和定位能力。NCL(Zhou等人,2023)利用基于Sobel(Dong等人,2022a)的非语义特征提取器来增强其识别非语义特征的能力。每个模型从篡改图像中提取非语义特征的方法如表1所示。
视觉Transformer中的稀疏自注意力
Transformer最初是为了解决自然语言处理(NLP)任务而提出的,并首次应用于序列数据。论文(Dosovitskiy等人,2020)介绍了一种新颖的Vision Transformer(ViT)模型,为将Transformer应用于视觉领域提供了新的见解。
自Transformer在视觉领域引入以来,对稀疏注意力的研究从未停止。Swin Transformer(Liu等人,2021b)在分层结构中利用移动窗口来聚合注意力。Sparse Transformer(Child等人,2019)通过限制注意力权重中非零元素的数量来降低计算复杂度。ResMLP(Touvron等人,2022)将局部连接融入注意力机制,而(Liu等人,2021a)则利用MLP的非线性特性来替代传统的注意力计算。ViViT(Arnab等人,2021)和CSWin Transformer(Dong等人,2022b)通过分解Transformer内的多头自注意力来降低计算成本并提高模型处理长序列的能力。ViViT将注意力分解为时间和空间计算,而CSWin Transformer将多头自注意力分为两个并行组,一个处理水平条纹,另一个处理垂直条纹,形成一个十字形窗口。Focal Self-attention(Yang等人,2021)通过结合细粒度的局部和粗粒度的全局交互来稀疏化注意力模式。在图像篡改定位(IML)领域,目前尚没有方法提出使用稀疏注意力从篡改图像中自适应提取与语义无关的信息。我们的工作在IML领域是开创性的。
方法
当前数据集中的篡改实例通常侧重于移动、删除或复制整个对象等操作。这使得现有模型(Pun, Yuan, and Bi 2015)仅凭语义特征就能相对较好地识别篡改区域。然而,这种对语义特征的过度依赖忽视了非语义特征的重要性,限制了模型在不熟悉或复杂的篡改场景中的泛化能力。我们观察到,图像的语义信息表现出强烈的连续性和上下文依赖性(Wang et al. 2018),因此需要全局注意力机制来加强局部和全局区域之间的交互(Vaswani 2017)。相比之下,非语义信息在局部和全局特征之间往往保持一致,并在图像的不同区域表现出更大的独立性(Ulyanov, Vedaldi, and Lempitsky 2018)。利用这一区别,我们可以设计一种机制,减少对语义信息的依赖,同时增强对非语义信息的捕获。
为此,我们提出将全局注意力机制分解为“稀疏注意力”形式。在表示图像的语义信息时,稀疏注意力可以防止模型对其过度拟合,从而使模型能够更多地关注图像中的非语义信息。如图1所示,我们通过用稀疏自注意力替换全局自注意力,改进了Uniformer(Li et al. 2023)中的传统注意力计算,其稀疏性呈指数衰减。
稀疏自注意力
传统的深度模型侧重于检测语义对象,旨在拟合这些语义对象。因此,传统的自注意力采用全局交互模式,其中图像中的每个补丁都与其他所有补丁参与令牌到令牌的注意力计算(Liu et al. 2021b)(Yuan et al. 2021)。然而,在图像篡改定位领域,这种全局交互引入了许多不相关的键值对。此外,模型对语义信息的过度关注意味着在全局交互期间,它会考虑图像中所有补丁的特征,如颜色和形状,从而对图像的整体内容有全面的理解。由于模型在全局交互期间主要关注图像的整体语义结构,因此它往往会忽略篡改后产生的非语义信息的局部不一致性。
为了解决这个问题,我们提出使用稀疏注意力来替换原始的全局注意力。我们引入了一个新的架构超参数,称为“稀疏率”,简写为“ S \mathcal{S} S”。给定输入特征图 X ∈ R H × W × C X \in \mathbb{R}^{H \times W \times C} X∈RH×W×C,我们不是对整个 H × W H \times W H×W特征图应用注意力,而是将特征划分为形状为 ( S × S , H S × W S , C ) \left(\mathcal{S} \times \mathcal{S}, \frac{H}{S} \times \frac{W}{S}, C\right) (S×S,SH×SW,C)的张量块。这意味着特征图被分解为 S × S \mathcal{S} \times \mathcal{S} S×S个大小为 H S × W S \frac{H}{S} \times \frac{W}{S} SH×SW的非重叠张量块,并在这些张量块内分别进行自注意力计算。如图2所示,只有标记有相同颜色的张量块才会执行自注意力计算。这种设计抑制了稀疏注意力块中语义信息的表达,使模型能够专注于提取非语义特征。此外,特征图中张量块的稀疏化消除了在篡改定位中涉及大量不相关键值对的注意力计算的需要,从而减少了浮点运算次数(FLOPs)。
多尺度特征
在图像篡改定位任务中,引入具有不同稀疏率的多尺度监督至关重要。稀疏率较小的特征图富含语义信息,有助于模型理解图像的全局上下文和结构。相反,稀疏率较大的特征图包含更多非语义信息,有助于模型捕获图像细节和局部特征。引入多尺度监督使模型能够通过不同程度地抑制语义特征来自适应地提取各种非语义特征,从而增强其在不同视觉场景中的泛化能力。
如图1所示,我们在第3阶段和第4阶段的不同块中引入了不同的稀疏率。第3阶段和第4阶段中每个块的稀疏率计算方法如下:
S 3 S b i = 2 ( 3 − i 5 ) , i = 0 … 19 S 4 S b i = 2 ( 1 − i 4 ) , i = 0 … 6 \begin{array}{ll} S3_{S}^{b_{i}}=2^{\left(3-\frac{i}{5}\right)}, \quad i=0 \ldots 19 \\ S4_{\mathcal{S}}^{b_{i}}=2^{\left(1-\frac{i}{4}\right)}, \quad i=0 \ldots 6 \end{array} S3Sbi=2(3−5i),i=0…19S4Sbi=2(1−4i),i=0…6
其中,上标 b i b_{i} bi表示阶段内的不同层,每层从0开始编号,下标 S \mathcal{S} S表示稀疏率。我们将第3阶段和第4阶段不同稀疏率下的最后一个块的输出作为我们的多尺度特征图。此外,由于全局注意力的稀疏化,我们可以轻松获得多尺度信息。这种方法不仅在不增加计算负担的情况下显著提高了模型的准确性和性能,而且使模型更加高效和稳健。
轻量级且有效的预测头LFF
层缩放(Touvron et al. 2021)是Transformer中使用的一种技术,其中通常堆叠多层自注意力和前馈网络,每层引入一个可学习的缩放参数 γ \gamma γ。这个缩放参数可以学习不同的值,从而在整个网络中实现更有效的信息传递。目前,特征融合方法通常通过简单的操作如加法或连接(Lin et al. 2017)来实现,这些操作仅提供特征图的固定线性聚合,而不考虑这种组合是否对特定对象最优。对于模型的最终预测,我们的目标是设计一个简单而有效的预测头。受Transformer架构中层缩放机制的启发,我们为每个特征图引入了一个可学习参数来控制缩放比例,从而实现更自适应的特征融合。
所提出的可学习特征融合(Learnable Feature Fusion,LFF)预测头由五个主要部分组成,如图3所示。首先,使用LFF层将特征图 F 1 F_{1} F1到 F 4 F_{4} F4的通道统一为512维。特征图 F 5 F_{5} F5和 F 6 F_{6} F6被上采样到原始尺寸的十六分之一。然后,每个特征图乘以其对应的 γ \gamma γ缩放参数,该参数初始化为一个较小的值,如 1 e − 6 1e-6 1e−6。之后,使用另一个LFF层将所有缩放后的特征图相加,并将相加结果的通道维度减少到1。最后,对结果进行上采样,并将上采样后的 H × W × 1 H \times W \times 1 H×W×1掩码作为最终预测结果。LFF过程可以形式化表示如下:
F i = Linear ( C i , C ) ( F i ) , i = 1 … 4 F i = Upsample ( H 16 × W 16 ) ( F i ) , i = 5 , 6 M p = Add ( F i × γ ) , i = 1 … 6 M p = Linear ( C , 1 ) ( M p ) M p = Upsample ( H × W ) ( M p ) \begin{array}{c} F_{i}=\text{Linear}\left(C_{i}, C\right)\left(F_{i}\right), \quad i=1 \ldots 4 \\ F_{i}=\text{Upsample}\left(\frac{H}{16} \times \frac{W}{16}\right)\left(F_{i}\right), \quad i=5,6 \\ M_{p}=\text{Add}\left(F_{i} \times \gamma\right), \quad i=1 \ldots 6 \\ M_{p}=\text{Linear}(C, 1)\left(M_{p}\right) \\ M_{p}=\text{Upsample}(H \times W)\left(M_{p}\right) \end{array} Fi=Linear(Ci,C)(Fi),i=1…4Fi=Upsample(16H×16W)(Fi),i=5,6Mp=Add(Fi×γ),i=1…6Mp=Linear(C,1)(Mp)Mp=Upsample(H×W)(Mp)
通过设置特征图权重参数,模型可以动态调整每个特征图对融合结果的贡献,从而增强特征融合的灵活性。通过这种简单的设计,模型可以更好地平衡和整合多尺度特征,突出重要特征的同时抑制不相关或冗余的特征。
结果
实验设置
为确保与现有的最先进的图像篡改定位方法进行公平比较,我们在CAT-Net(Kwon等,2021)引入的数据集上训练了我们的模型,然后在CASIAv1(Dong, Wang, and Tan 2013)、NIST16(Guan等,2019)、COVERAGE(Wen等,2016)、Columbia(Hsu and Chang 2006)和DEF12k(Mahfoudi等,2019)数据集上进行了测试。与大多数先前的工作(Wei等,2023)(Ma等,2024)类似,我们使用像素级别的F1分数和AUC(曲线下面积)来衡量模型的性能。除非另有说明,否则我们报告的结果使用的是0.5的默认阈值。有关实验设置和DEF-12k数据集的详细信息,请参阅附录A。
消融研究
为了更好地评估每个组件的性能影响,我们采用了一种增量方法,即逐步添加组件,并将其与包含所有组件的完整模型进行比较。这种方法使我们能够彻底测量和优化所提出模型的架构。我们研究了使用稀疏注意力和全局注意力对模型参数和浮点运算(FLOPs)的影响。此外,我们还比较了手动设计的特征提取器和稀疏注意力机制在提取非语义特征方面的能力。为了探索LFF预测头的影响,我们在引入稀疏注意力的情况下,将其性能与SegFormer(Xie等,2021)中的多层感知器(MLP)预测头进行了比较。这一比较不仅帮助我们评估了预测头设计的有效性,还揭示了不同预测头对模型整体性能的具体影响。此外,我们还比较了传统的单尺度监督与我们提出的多尺度监督方法,以探讨多尺度监督的优势及其对模型性能的贡献。所有这些评估的结果都是基于在CAT-Net提出的数据集上进行训练,并在CASIAv1、NIST16、COVERAGE、Columbia和DEF-12k上进行测试得出的。实验结果如表2和表3所示。
稀疏注意力在捕获非语义信息方面有效。在表2中,我们比较了稀疏注意力和全局注意力在五个数据集上的性能。此外,我们还报告了在这些数据集上手动提取的非语义特征和稀疏注意力的性能。结果一致地证实了稀疏注意力机制在从篡改图像中提取非语义特征方面具有显著优势。我们观察到,某些手工制作的特征提取方法在数据集上并没有显著提升模型性能,在某些情况下甚至导致性能下降。这引发了对手动非语义特征提取有效性的质疑,值得进一步研究。然而,显而易见的是,稀疏注意力机制在所有数据集上都显著提高了模型性能,在五个不同的数据集上都实现了全面的提升。
此外,稀疏注意力的设计也显示出在减少计算负担方面的优势。与全局注意力相比,稀疏注意力将模型的浮点运算减少了大约 15 % 15\% 15%,这对于大规模图像处理任务尤其有价值。综上所述,稀疏注意力通过精确提取篡改图像中的非语义信息,提高了模型对细微伪影的敏感性,从而显著提高了模型的泛化能力。
如图4所示,我们通过定性分析证明,在稀疏化之后,模型成功抑制了需要密集编码和长距离上下文依赖的语义特征,同时能够提取不需要密集编码的非语义特征。在附录C中,我们对稀疏注意力和手工制作的特征提取器进行了定性分析。
LFF的影响。在表3中,我们报告了单尺度特征、LFF和MLP(Xie等,2021)预测头在数据集上的性能。实验结果表明,无论使用单尺度特征还是多尺度特征,或者采用不同的特征融合策略,CASIAv1数据集上的F1分数都表现出高度一致性。我们将这一现象归因于CASIAv1和CASIAv2来源于相同的数据集,因此CASIAv1数据集上的性能不足以反映模型的泛化能力(Ma等,2023)。进一步分析发现,与仅使用单尺度特征相比,LFF预测头和MLP预测头在五个数据集上的平均F1分数都取得了显著提高。这表明有效的特征融合策略可以显著增强模型在检测图像篡改方面的性能。具体来说,与MLP预测头相比,LFF在平均F1分数方面也取得了提升,验证了可学习特征融合在性能上优于简单的特征相加。
局部特征融合(LFF)的优势在于它能够自适应地学习不同特征图之间的最佳融合权重,而不仅仅是将它们相加。这种学习机制使得LFF能够更精确地处理多尺度特征,从而更好地捕获图像中的篡改痕迹。此外,使用多尺度特征已被证明是有益的,因为它提供了不同层次的语义和非语义信息,有助于模型在各种操作条件下做出更准确的预测。
最先进技术对比
为确保评估的公平性,我们只考虑了代码可在网上公开获取的模型。我们遵循与CAT-Net相同的协议,对这些模型进行了重新训练,并在公共数据集上进行了测试。在本研究中,我们考虑了多种方法,并最终纳入了四种依赖手工提取篡改图像非语义特征的方法:ManTraNet、MVSS、CATNet v2和TruFor。此外,我们还纳入了一种不使用手工特征提取的方法:PSCC-Net(Liu等,2022)。这些方法的简要概述如表1所示,以供参考。我们的目标是提供一个全面且公平的对比,以更深入地了解不同方法在图像篡改定位中的性能和潜力。
定位结果。在表4中,我们展示了各种方法在像素级定位方面的性能。我们的方法凭借其优越的平均F1分数脱颖而出,在所有数据集上均排名第一。对这些结果的详细分析表明,我们的模型在基于手工非语义特征提取的传统方法和不依赖手工特征的模型方面均表现出色。我们的模型之所以在众多模型中脱颖而出,原因在于其在特征学习和表示方面的创新。通过深入探索篡改图像的内在结构,我们的模型能够准确捕获篡改留下的微妙痕迹。即使面对复杂多变的篡改技术,它仍能保持高检测准确率。
检测结果。我们选择了在Pixel-F1指标上表现最佳的权重参数来评估模型的AUC性能。通过分析表4中的数据,我们观察到我们的SparseViT模型在几乎所有测试数据集上都取得了最佳性能,并表现出了最高的平均AUC值。这一结果表明,SparseViT模型在广泛的性能评估点上均优于现有的基线模型。
模型大小对比。与当前表现最佳的Trufor相比,SparseViT在相同的训练数据大小( 512 × 512 512 \times 512 512×512像素)下不仅实现了优越的F1和AUC性能,还将模型大小减少了80%以上。此外,即使与使用较小训练数据( 256 × 256 256 \times 256 256×256像素)的ManTraNet相比,SparseViT在减少计算负载方面也表现出显著优势。具体数据如表5所示。
鲁棒性分析。遵循(Wu、AbdAlmageed和Natarajan,2019)以及(Hu等,2020)的指南,我们在CASIAv1数据集上评估了模型针对图像篡改定位中三种常见攻击方法的鲁棒性,即JPEG压缩、高斯模糊和高斯噪声。结果如图6所示。观察结果表明,SparseViT在抵抗这些干扰方面优于现有的最先进模型,表现出了卓越的鲁棒性。
总体而言,与在公平的跨数据集评估协议下测试的现有模型相比,我们的模型实现了最先进的性能。图5从定性角度说明了我们的模型的一个关键优势:无论是否涉及对象级篡改,我们的模型都能有效地利用独立于图像语义内容的非语义特征来准确识别篡改区域,从而避免与语义相关的误报。
结论
依赖手工方法来增强模型提取非语义特征的能力通常会限制其在不熟悉场景中的泛化潜力。为了超越手工方法,我们建议使用稀疏自注意力机制来学习非语义特征。稀疏自注意力使模型更加关注对篡改敏感的非语义特征,同时抑制语义信息的表达。我们的自适应方法不仅参数高效,而且比以往的手工方法更有效,大量实验表明,SparseViT实现了最先进(SoTA)的性能和泛化能力。
附录
附录A. 实验设置详情
数据集。为确保与当前最先进的图像篡改定位(IML)方法进行公平比较,我们的模型在CAT-Net(Kwon等人,2021)提供的数据集上进行训练。随后,我们在图像篡改定位领域广泛认可的公共数据集上测试了训练好的模型。这些数据集包括CASIAv1(Dong, Wang, and Tan, 2013)、NIST16(Guan等人,2019)、COVERAGE(Wen等人,2016)、Columbia(Hsu and Chang, 2006)和DEFACTO(Mahfoudi等人,2019)。特别地,鉴于DEFACTO数据集缺少作为负样本的真实图像,我们采用了MVSS(Dong等人,2022a)提出的方法来解决这一问题。我们从DEFACTO数据集中随机选择了6000张图像作为正样本,并同样从MS-COCO数据集中提取了6000张图像作为负样本。这12000张图像共同构成了我们用于测试的DEF-12k数据集。这种方法确保了评估过程中,模型不仅能在不同的数据集上展示其性能,而且在缺少标准负样本的情况下也能进行有效测试。
评估标准。在我们的评估过程中,与大多数先前的研究一样,我们使用像素级的F1分数和AUC(曲线下面积)作为衡量模型性能的关键指标。我们承认,使用最优阈值进行评估可能会导致性能估计过于乐观,因为在实际应用中理想阈值通常是未知的,并且可能因不同场景而异。为避免这种情况并提供更实用、更具可比性的性能评估,除非另有说明,否则我们在评估报告中采用了固定阈值。具体来说,我们选择0.5作为报告模型性能指标时的默认阈值。
实现。我们的SparseViT模型在PyTorch框架中得到了精心实现,并在NVIDIA RTX 3090 GPU上进行了高效训练。在训练过程中,我们选择了16的批量大小,并设置了200个训练周期,以确保模型能够充分学习和收敛。在优化方面,我们使用了Adam优化器,初始学习率为 1 × 1 0 − 4 1 \times 10^{-4} 1×10−4,然后使用余弦退火策略将其周期性衰减到 1 × 1 0 − 7 1 \times 10^{-7} 1×10−7。这种方法有助于模型在训练过程中精细地接近最优解。与MVSS-Net类似,我们在训练前进行了数据增强,以提高模型的泛化能力。所使用的数据增强技术包括图像翻转、模糊、压缩和简单篡改操作,这些操作有助于模拟图像在现实世界中可能经历的各种变换和篡改。此外,为了进一步提高模型的性能,我们采用了预训练策略。具体来说,我们使用在ImageNet1k数据集上预训练的Uniformer(Li等人,2023)权重来初始化我们的SparseViT模型。
附录B. 稀疏率组合
尽管我们已经引入了超参数“稀疏率”来实现全局自注意力中的稀疏性,以提取非语义特征,但注意力机制中不同程度的稀疏性可以不同程度地识别非语义特征。因此,为我们的模型选择“稀疏率”对于提取非语义特征至关重要。
在本研究中,我们进行了一系列实验,重点研究模型内部稀疏率的组合。首先,我们探讨了单一稀疏率对非语义特征提取的影响。如表6所示,我们在四个不同的数据集上测试了模型在不同稀疏率(2,4,8)下的像素级F1分数。实验结果表明,在CASIAv1和Columbia数据集上,与较高稀疏率的模型相比,较低稀疏率的模型实现了相似甚至更高的F1分数,而它们在NIST16和COVERAGE数据集上的表现则逊于高稀疏率模型。
我们的分析显示,与较高的稀疏率相比,较低的稀疏率在抑制语义信息方面效果较差。这表明,在像CASIAv1和Columbia这样包含更多对象级篡改的数据集上,即使模型学习了错误的语义关联,它仍然可以获得良好的F1分数。然而,在像NIST16和COVERAGE这样精心设计的数据集上,由于非语义特征学习不足,模型的泛化能力受到限制。在图7中,我们对不同稀疏水平进行了定性分析。F1分数显示,由于非语义特征学习不足,较低稀疏率的模型在抵抗语义关联方面表现不佳。这导致与较高稀疏率的模型相比,在NIST16等高质量数据集上的定位性能较差。
为了克服这一限制,并增强模型对非语义特征的学习能力,同时提高其泛化能力,我们提出了一种新策略:在模型的不同层中应用稀疏化,且稀疏率按指数递减。这种方法旨在平衡模型对非语义特征和语义特征的学习,使模型能够保持对非语义特征的敏感性,同时捕获一些语义信息,从而在各种数据集上实现更平衡和稳健的性能。
附录C. 定性比较结果
在图8中,我们比较了手工特征提取器和稀疏自注意力方法在定位图像中篡改区域的能力。结果表明,DCT和SRM手工特征提取器在识别篡改区域方面取得了一定改进。然而,当Sobel和Bayar特征提取器与LFF预测头结合使用时,其定位性能并未超过仅使用LFF预测头的情况。这引发了疑问:是否所有手工特征提取器都能有效地从图像中提取非语义特征。显然,稀疏自注意力机制即使不依赖LFF预测头,也表现出优于DCT和其他手工特征提取器的定位能力。这一发现证实了稀疏自注意力机制能够自适应地从篡改图像中提取非语义特征,表明与传统手工方法相比,稀疏自注意力机制在捕获图像内的非语义信息方面可能更有效。
附录D. IoU结果报告
我们报告了最先进的IML模型的像素级IoU分数,如表8所示。SparseViT在所有四个数据集上都取得了最佳结果。SparseViT不仅在像素级F1分数上表现出色,而且在整体图像分割和识别任务中也表现出高精度和鲁棒性。这归功于SparseViT独特的稀疏结构设计,它显著增强了模型捕获非语义特征的能力,同时保持了参数效率。
附录E. 在其他ViT上实现稀疏编码
我们选择Uniformer,因为像PVT(Wang等人,2021)和Segformer(Xie等人,2021)这样的模型使用重叠补丁划分,这可能会使补丁之间的稀疏交互变得难以控制,并导致语义过拟合。此外,Uniformer在浅层使用CNN来提取特征,我们认为CNN捕获边缘等基本特征的能力对IML是有益的。我们的方法也与原始ViT(Dosovitskiy等人,2020)兼容,如表9所示。我们在原始ViT和VOLO(Yuan等人,2022)(无LFF)上实现了稀疏注意力,结果表明我们的方法对原始ViT同样有效。
附录F. LFF在提高性能中的作用
设计LFF的目标之一是实现轻量级且高效的性能。因此,在“LFF的影响”部分,我们重点将其与为轻量级目的而设计的MLP进行比较。为了进一步突出LFF在轻量级设计和效率方面的优势,我们在表7中提供了与AFF(Dai等人,2021)和ASPP(Chen等人,2017)的额外比较。结果表明,SparseViT在平均F1分数和参数效率方面优于这些方法,证明了LFF可以显著降低模型复杂性和计算成本,同时保持性能。