随着图像合成技术的成熟,利用一张人脸照片合成假视频/不良视频现象越来越多,严重侵犯个人隐私、妨碍司法公正,所以人脸造假检测越来越重要,学术界的论文也越来越多。
一、研究1
1.1 论文题目
Multi-attentional Deepfake Detection
1.2 摘要
deepfake的人脸伪造技术在互联网上广泛传播,并引起了严重的社会关注。近年来,如何检测此类伪造内容已成为一个研究热点,并提出了许多深度伪造检测方法。其中,大多数将深度伪造检测建模为普通的二元分类问题,即首先使用骨干网络提取全局特征,然后将其输入二元分类器(real/fake)。但由于这个任务中,真实图像和虚假图像之间的差异通常是微妙和局部的,我们认为这种香草解决方案不是最优的。在本文中,我们将深度伪造检测描述为一个细粒度的分类问题,并提出了一种新的多注意力深度伪造检测网络。具体来说,它由三个关键部分组成:1)多个空间注意头,使网络关注不同的局部部分;2)纹理特征增强块,放大浅层特征中的细微伪影;3)在注意图的引导下,对低层次的纹理特征和高层次的语义特征进行聚合。此外,为了解决该网络的学习困难,我们进一步引入了一种新的区域独立性损失和一种注意力引导的数据增强策略。通过在不同数据集上的大量实验,我们证明了我们的方法优于普通的二元分类器,并实现了最先进的性能。
1.3 研究内容
本次工作中,作者将 deepfake 检测表述为细粒度分类问题进行研究,提出 multi-attentional deepfake 检测网络。具体来说,它由三个关键部分组成:
- multiple spatial attention heads(多空间注意力头),促使网络注意到不同的局部部分
- textural feature enhancement block(纹理特征增强块),来放大浅层特征中细微假象
- 由 attention maps 指导,聚合低层次的纹理特征和高层次的语义特征
此外,为了解决网络的学习困难,进一步引入一个新的区域独立性损失和一个注意力引导的数据增强策略。
通过在不同数据集上的广泛实验,证明了所提出方法必常见的二元分类器更有优势,并取得了最先进的性能。
- 作者 | Hanqing Zhao, Wenbo Zhou, Dongdong Chen, Tianyi Wei, Weiming Zhang, Nenghai Yu
- 单位 | 中国科学技术大学;微软
- 论文 | https://arxiv.org/abs/2103.02406
- 代码 | https://github.com/yoctta/multiple-attention
二、研究2
2.1 论文题目
Frequency-aware Discriminative Feature Learning Supervised by Single-Center Loss for Face Forgery Detection
2.2 摘要
人脸伪造检测引起了人们对计算机视觉越来越多的兴趣,因为人脸处理技术引起了严重的担忧。虽然最近的工作取得了不错的成果,但仍然存在不可忽视的问题:a)由softmax损失监督的学习特征是可分离的,但没有足够的判别性,因为softmax损失没有明确地鼓励类内紧密性和类间可分离性;b)固定滤波器组和手工制作的特征不足以捕获来自不同输入的频率伪造模式。为了弥补这种局限性,本文提出了一种新的频率感知判别特征学习框架。具体来说,我们设计了一种新的单中心损失(SCL),它只压缩自然面孔的类内变化,同时提高嵌入空间中的类间差异。在这种情况下,网络可以以更小的优化难度学习到更多的判别特征。此外,开发了自适应频率特征生成模块,以完全数据驱动的方式挖掘频率线索。通过以上两个模块,整个框架可以端到端学习更多的判别特征。大量的实验证明了我们的框架在三个版本的FF++数据集上的有效性和优越性。
2.3 研究内容
文中所提出的 Frequency-aware discriminative feature learning(频率感知的鉴别特征学习)框架,它采用度量学习和自适应频率特征学习来进行 face forgery detection(人脸造假检测)。
具体来说,设计一个新的 single-center loss(SCL)损失,只压缩自然人脸的类内变化,提升嵌入空间的类间差异。以此,网络可以以较小的优化难度学习更多的鉴别性特征。此外,还开发一个自适应频率特征生成模块,以一种完全由数据驱动的方式挖掘频率线索。基于上述两个模块,整个框架可以以端到端的方式学习更多的鉴别性特征。
通过大量的实验,验证了所提出框架在三个版本的 FF++ 数据集上的有效性和优越性。
- 作者 | Jiaming Li, Hongtao Xie, Jiahong Li, Zhongyuan Wang, Yongdong Zhang
- 单位 | 中国科学技术大学;快手
- 论文 | https://arxiv.org/abs/2103.09096
三、研究3
3.1 论文题目
MagDR: Mask-guided Detection and Reconstruction for Defending Deepfakes
3.2 摘要
深度造假引发了人们对视觉内容真实性的严重担忧。先前的研究揭示了通过在源数据中添加对抗性扰动来破坏深度伪造的可能性,但我们认为这种威胁尚未消除。本文提出了一种用于防御深度伪造攻击的掩码引导检测和重建管道MagDR。MagDR从一个检测模块开始,该模块定义了一些标准来判断深度伪造输出的异常,然后用它来指导一个可学习的重建过程。提取自适应蒙版来捕捉局部面部区域的变化。在实验中,MagDR防御了深度伪造的三个主要任务,并且学习的重建管道跨输入数据传输,在防御黑盒和白盒攻击方面都显示出很好的性能。
3.3 研究内容
“一种能够消除对抗样本对 Deepfake 干扰攻击的方法,该方法对防止深度伪造能力滥用提出了新思考。同时,也可用于提升 AI 图像处理的安全性。”
——参考解读 https://cloud.tencent.com/developer/news/797874
- 作者 | Zhikai Chen, Lingxi Xie, Shanmin Pang, Yong He, Bo Zhang
- 单位 | 西安交通大学;华为;Tencent Blade Team
- 论文 | https://arxiv.org/abs/2103.14211
四、研究4
4.1 论文题目
Face Forensics in the Wild
4.2 摘要
在现有的公共基准上,人脸伪造检测技术已经取得了很大的成功。然而,当用于多人视频时,通常包含许多人在场景中活动,只有一小部分被操纵,它们的性能仍然远远不能令人满意。为了将人脸伪造检测提升到一个新的水平,我们构建了一个名为FFIW-10K的新型大规模数据集,该数据集由10,000个高质量的伪造视频组成,每帧平均有三张人脸。操作过程是全自动的,由领域对抗质量评估网络控制,使我们的数据集具有低人力成本的高可扩展性。此外,我们还提出了一种新的人脸伪造检测算法。该算法仅在视频级标签的监督下,探索多实例学习,并学会自动处理被篡改的人脸。该算法在FFIW-10K上优于代表性的伪造分类和定位方法,并且在现有的基准测试中也显示出较高的泛化能力。我们希望我们的数据集和研究能够帮助社会更深入地探索这个新的领域。
4.3 研究内容
在现有的公共基准上,人脸造假检测技术已经取得了巨大的成功。但在多人视频中应用,还不尽如人意。
为了将人脸造假检测提升到一个新的水平,作者在本次工作中,构建一个新的大规模数据集,FFIW-10K,包括 10,000 个高质量的造假视频,平均每帧有三张人脸。操作过程是全自动的,由一个域对抗性的质量评估网络控制,使该数据集具有高度的可扩展性和低人力成本。
除此之外,还设计一个新算法用于多人脸造假检测任务。在只有视频级标签的监督下,该算法探索了多实例学习,并学会自动关注被干预人脸。
通过实验证明,所设计算法在 FFIW-10K 上的造假分类和定位方面都优于代表性的方法,并且在现有的基准上也显示出很高的泛化能力。
- 作者 | Tianfei Zhou, Wenguan Wang, Zhiyuan Liang, Jianbing Shen
- 单位 | 苏黎世联邦理工学院;北京理工大学;起源人工智能研究院
- 论文 | https://arxiv.org/abs/2103.16076
- 代码 | https://github.com/tfzhou/FFIW
五、研究5
5.1 论文题目
Improving the Efficiency and Robustness of Deepfakes Detection through Precise Geometric Features
5.2 摘要
Deepfakes是一种恶意技术的分支,它将视频中的目标人脸移植到原始人脸上,从而导致侵犯版权、信息混乱甚至公众恐慌等严重问题。之前对Deepfakes视频检测的努力主要集中在外观特征上,这些特征有被复杂操作绕过的风险,也会导致模型的高度复杂性和对噪声的敏感性。此外,如何挖掘和利用被操纵视频的时间特征仍然是一个悬而未决的问题。我们提出了一个高效鲁棒的框架LRNet,通过对精确的几何特征进行时间建模来检测深度伪造视频。设计了一种新的校正模块,以提高几何特征的精度,使其更具判别性,并构建了一个两流循环神经网络(RNN),以充分利用时间特征。与以前的方法相比,我们提出的方法权重更轻,更容易训练。此外,我们的方法在检测高度压缩或噪声损坏的视频方面显示出鲁棒性。我们的模型在face取证++数据集上达到了0.999 AUC。同时,在面对高度压缩的视频时,它的性能有一个优雅的下降(-0.042 AUC)。
5.3 研究内容
LRNet 是一个具有高效、鲁棒性的框架,通过对精确的几何特征进行时间建模来检测 Deepfakes 视频。具体来说,设计一个新的校准模块来提高几何特征的精度,使其更具辨别力,并构建了一个 Recurrent Neural Network(RNN)来充分挖掘时间特征。
与以前的方法相比,所提出方法权重更少,且更容易训练。此外,它在检测高度压缩或噪音损坏的视频方面表现出了鲁棒性。在 FaceForensics++ 数据集上达到了 0.999 的 AUC。同时,在面对高度压缩的视频时,性能只轻微下降(-0.042AUC)。
- 作者 | Zekun Sun, Yujie Han, Zeyu Hua, Na Ruan, Weijia Jia
- 单位 | 上海交通大学;北京师范大学;UIC
- 论文 | https://arxiv.org/abs/2104.04480
- 代码 | https://github.com/frederickszk/LRNet
六、研究6
6.1 论文题目
Lips Don’t Lie: A Generalisable and Robust Approach to Face Forgery Detection
6.2 摘要
尽管目前基于深度学习的人脸伪造检测器在受限情况下取得了令人印象深刻的性能,但它们很容易受到看不见的操纵方法产生的样本的影响。最近的一些工作显示了泛化的改进,但依赖于容易被常见的后处理操作(如压缩)破坏的线索。在本文中,我们提出了LipForensics,这是一种能够推广到新操作并承受各种扭曲的检测方法。LipForensics的目标是嘴巴运动中的高级语义不规则性,这在许多生成的视频中很常见。它包括首先预训练一个时空网络来进行视觉语音识别(唇读),从而学习与自然口腔运动相关的丰富的内部表征。随后,时间网络在真实和伪造数据的固定嘴巴嵌入上进行微调,以便检测基于嘴巴运动的假视频,而不会过度拟合到低水平,特定于操作的人工制品。大量的实验表明,这种简单的方法在对看不见的操作的泛化和对扰动的鲁棒性方面明显超过了最先进的方法,并揭示了对其性能负责的因素。
6.3 研究内容
作者提出一种新方法:LipForensics,来检测伪造人脸视频。通过利用读唇语学习到的丰富表征,来检测语义上高级口部动作的不一致。实现了对未见伪造类型的最先进的泛化表现,同时对各种常见视频质量降质的鲁棒性明显高于其他方法。满足这两个目标对于现实生活中的人脸伪造检测至关重要,作者称本次工作将是打击假视频的重要进步。
- 作者 | Alexandros Haliassos, Konstantinos Vougioukas, Stavros Petridis, Maja Pantic
- 单位 | 帝国理工学院;Facebook,英国
- 论文 | https://openaccess.thecvf.com/content/CVPR2021/papers/Haliassos_Lips_Dont_Lie_A_Generalisable_and_Robust_Approach_To_Face_CVPR_2021_paper.pdf
七、研究7
7.1 论文题目
Representative Forgery Mining for Fake Face Detection
7.2 摘要
尽管基于卷积神经网络(CNN)的普通检测器在假人脸检测上取得了令人满意的性能,但我们观察到检测器倾向于在有限的人脸区域内寻找伪造,这表明检测器对伪造的理解不足。因此,我们提出了一种基于注意力的数据增强框架来指导检测器细化和扩大其注意力。具体来说,我们的方法跟踪和遮挡了Top-N敏感的面部区域,鼓励检测器深入挖掘之前忽略的区域,以获得更有代表性的伪造。特别是,我们的方法使用简单,可以很容易地与各种CNN模型集成。大量的实验表明,用我们的方法训练的检测器能够分别指出不同操作技术产生的假人脸的代表性伪造,并且我们的方法使基于cnn的普通检测器在不修改结构的情况下达到最先进的性能。
7.3 研究内容
北邮提出的RFM 框架,可以在没有精心设计的监督情况下将显著的 forgery(伪造行为)可视化,并使基于通用CNN 的检测器在DFFD 和 Celeb-DF 上实现 SOTA 性能。
- 作者 | Chengrui Wang, Weihong Deng
- 单位 | 北邮
- 论文 | https://arxiv.org/abs/2104.06609
- 代码 | https://github.com/crywang/RFM
八、研究8
8.1 论文题目
Spatial-Phase Shallow Learning: Rethinking Face Forgery Detection in Frequency Domain
8.2 摘要
人脸伪造技术的巨大成功已经引起了计算机视觉领域的广泛关注。研究发现,上采样是人脸伪造技术的一个必要步骤,累积上采样会导致频域尤其是相谱发生明显变化。根据自然图像的特性,相位谱保留了丰富的频率分量,提供了额外的信息,弥补了幅度谱的损失。为此,我们提出了一种新的空间-相位浅学习(SPSL)方法,该方法结合空间图像和相位谱来捕获人脸伪造的上采样伪像,以提高人脸伪造检测的可移植性。并从理论上分析了相位谱利用的有效性。此外,我们注意到在人脸伪造检测任务中,局部纹理信息比高级语义信息更为重要。因此,我们通过浅化网络来抑制高级特征并关注局部区域来减少接受域。大量的实验表明,SPSL在跨数据集评估和多类分类上都能达到最先进的性能,在单数据集评估上也能获得相当的结果。
8.3 研究内容
文中提出一种人脸造假检测方法,Spatial-Phase Shallow Learning(SPSL),它结合空间图像和相位频谱来捕捉人脸伪造的上采样伪影以提高可迁移性,用于人脸造假检测。并从理论上分析了利用相位谱的有效性。此外,还注意到,对于人脸造假检测任务来说,局部纹理信息比高层语义信息更为关键。因此,通过浅化网络来减少感受野,以抑制高层次的特征,并将重点放在局部区域。
实验表明,SPSL 可以在跨数据集评估以及多类分类上达到最先进的性能。
- 作者 | Honggu Liu, Xiaodan Li, Wenbo Zhou, Yuefeng Chen, Yuan He, Hui Xue, Weiming Zhang, Nenghai Yu
- 单位 | 中国科学技术大学;阿里
- 论文 | https://arxiv.org/abs/2103.01856
九、研究9
9.1 论文题目
Generalizing Face Forgery Detection with High-frequency Features
9.2 摘要
目前的人脸伪造检测方法在采用同一算法合成训练伪造和测试伪造的数据库内场景下具有较高的准确率。然而,在不同算法合成训练和测试伪造的跨数据库场景下,它们很少能获得令人满意的性能。在本文中,我们发现当前基于cnn的检测器倾向于过度拟合方法特定的颜色纹理,从而无法泛化。观察到图像噪声去除颜色纹理并暴露真实区域和篡改区域之间的差异,我们提出利用高频噪声进行人脸伪造检测。我们精心设计了三个功能模块,以充分利用高频特性。首先是多尺度高频特征提取模块,提取多尺度高频噪声,构成新的模态。二是残差引导空间注意模块,引导低级RGB特征提取器从一个新的角度更多地关注伪造痕迹。最后是跨模态注意模块,它利用两种互补模态之间的相关性来促进彼此的特征学习。对多个基准数据库的综合评估证实了我们提出的方法具有优越的泛化性能。
9.3 研究内容
作者观察到图像的高频噪声不仅去除了颜色纹理,还暴露了真实和篡改区域之间的差异,因此利用高频噪声来提高人脸伪造检测器的泛化能力。
为了充分利用图像的高频特征,精心设计了三个模块。一是多尺度高频特征提取模块,该模块在多个尺度上提取高频噪声,以构成新的模态信息。二是残差引导的空间注意模块,该模块从新的角度引导底层的RGB特征提取器更加专注于伪造痕迹。三是跨模态注意力模块,该模块利用两个互补模态之间的相关性来促进彼此的特征学习。在多个基准数据集的实验表明所提出的检测模型具有优越的泛化性能。
- 作者 | Yuchen Luo, Yong Zhang, Junchi Yan, Wei Liu
- 单位 | 上海交大;腾讯
- 论文 | https://arxiv.org/abs/2103.12376
- 简介 | CVPR 2021 | 腾讯AI Lab入选论文解读
十、研究10
10.1 论文题目
Face Forgery Detection by 3D Decomposition
10.2 摘要
由于假媒体对公众的潜在危害,检测数字人脸操纵引起了广泛关注。然而,最近的进展已经能够将伪造信号降低到低幅度。分解将图像可逆地分解为若干组成元素,是一种很有希望突出隐藏的伪造细节的方法。在本文中,我们将人脸图像看作是底层三维几何和光照环境相互作用的产物,并在计算机图形视图中对其进行分解。具体来说,通过将人脸图像分解为三维形状、普通纹理、身份纹理、环境光和直射光,我们发现问题的关键在于直射光和身份纹理。在此基础上,我们提出利用直接光线与身份纹理相结合的面部细节作为线索来检测微妙的伪造图案。此外,我们利用监督注意机制突出被操纵区域,并引入双流结构作为多模态任务同时利用人脸图像和面部细节。大量的实验表明,从面部细节中提取的额外特征是有效的,我们的方法达到了最先进的性能。
10.3 研究内容
通过三维分解进行人脸造假检测
本次工作,将人脸图像视为底层三维几何和照明环境干预的产物,并将其分解在计算机图形视图中。具体来说,通过将人脸图像分解为三维形状、普通纹理、身份纹理、环境光和直射光,发现 “魔鬼” 就在直射光和身份纹理上。基于此,提出利用面部细节,也就是直射光和身份纹理的组合,作为检测微妙伪造模式的线索。此外,用监督下的注意力机制突出被操纵的区域,并引入一个双流结构,将面部图像和面部细节一起作为一个多模态任务加以利用。
大量的实验表明,从面部细节中提取的额外特征是有效的,所提出方法达到了最先进的性能。
- 作者 | Xiangyu Zhu, Hao Wang, Hongyan Fei, Zhen Lei, Stan Z. Li
- 单位 | 中科院;国科大;北京科技大学;西湖大学
- 论文 | https://arxiv.org/abs/2011.09737