Diffusion Facial Forgery (DiFF) ——一个新的大规模人脸伪造检测数据集

1. 概述

近年来，条件扩散模型（CDM）在图像生成领域备受关注。它能够通过简单的输入（如自然语言提示）生成令人惊讶的忠实图像。然而，这一进步也引发了新的安全和隐私问题。例如，怀有恶意的个人现在可以轻易地大量生成任意人物的虚假图像。这种情况可能会给社会带来严重后果。

为了解决这个问题，研究人员正在努力建立数据集，以识别和分析扩散生成的图像。这些数据集通过寻找检测图像制作中细微差别的线索，促进了伪造检测技术的发展。然而，现有数据集的规模和多样性目前都很有限，尤其是在检测面部伪造图像方面。

为了填补这一空白，本文提出了一个名为 "扩散面部伪造（Diffusion Facial Forgery，DiFF）"的扩散面部伪造数据集，该数据集在规模、多样性和详细注释方面有别于任何现有数据集。DiFF 是一个独特的扩散生成面部伪造数据集。它是第一个专门用于扩散生成的人脸伪造的综合数据集。从下表可以看出，它包含 50 多万张伪造人脸图像，规模远远大于以前的人脸数据集。它使研究人员能够以前所未有的准确度识别和分析伪造图像。

此外，通过对 DiFF 的实验，本文强调了现有的伪造检测模型在检测扩散生成的人脸中的伪造时所面临的局限性。为了克服这一局限性，本文还提出了一种基于边缘图的新方法，该方法可以集成到现有模型中，从而显著提高伪造检测的准确性。

如上所述，这项研究开展了三项重要工作：构建高质量的扩散生成人脸数据集、提供综合基准以及开发新的检测方法。本文将特别介绍高质量扩散生成人脸数据集的构建。
论文地址：https://arxiv.org/pdf/2401.15859.pdf
源码地址：https://github.com/xacheng1996/diff
DiFF 数据集地址：https://github.com/xaCheng1996/DiFF

2. 什么是扩散面部伪造 (DiFF)？

作为数据收集工作的一部分，我们从名人数据集（如 VoxCeleb2 和 CelebA）中精心挑选了 1,070 位名人的图片。这些名人性别均衡，涵盖不同年龄段。每位名人都从在线视频和现有数据集中挑选了约 20 张图片，共计 23,661 张图片。

下一步是生成人脸图像。以往的研究表明，这两者之间存在正相关关系：输入提示的质量越高，生成图像的质量就越好。在此基础上，我们设计了多样化的精确提示，以帮助使用条件扩散模型（CDM）生成高质量的图像。文字提示 (P_t_mod)，第三种是视觉提示 (P_v)。所有这些都是扩散模型生成图像的指南。

原始文本提示P_t_ori可半自动生成多样化的自然文本提示。首先，通过选择每位名人正面的清晰图像，整理出 2,531 张高质量图像。使用提示反转工具将这些图片转换成文字说明，并由专家进行审核和改写，以删除不必要的术语并提高清晰度。通过这一过程，共创建了 10,084 条精炼提示。

修改后的文本提示P_t_mod会随机修改 P_t_ori 的关键属性（如性别、发色、面部表情），以增加提示的多样性。这种修改可以生成修改了某些特征的图像。例如，"面部表情丰富的男性 "可以改为 “面部表情丰富的女性”。

视觉提示 (P_v) 包含从每张图像中提取的面部特征（嵌入、素描、地标、分割等）。这些特征被应用到扩散模型中，对人脸编辑等任务特别有用。根据视觉线索对扩散模型进行调节，可以生成更具体的图像。

最后是人脸伪造生成。根据输入类型的不同，人脸伪造生成技术可分为四种主要方法：文本到图像（T2I）、图像到图像（I2I）、人脸互换（FS）和人脸编辑（FE）。文本到图像 (T2I)、图像到图像 (I2I)、人脸互换 (FS) 和人脸编辑 (FE)。

文本到图像 (T2I) 可根据与内容相匹配的特定文本提示（如 “穿制服的男人”）生成图像。这种方法能根据直观的文字说明生成特定的视觉效果。图像到图像（I2I）和面部交换（FS）则使用视觉输入；I2I 复制特定身份的特征，而 FS 则通过交换两个不同身份的面部来执行更精细的操作。面部编辑（FE）结合了文本和视觉条件，在修改某些面部属性（如面部表情和嘴唇动作）的同时保留其他属性。这种方法可以进行更复杂的编辑。

在本文的每个类别中，都采用了 SoTA 来增加生成人脸的多样性。具体来说，对于文本到图像，使用了 Midjourney、Stable Diffusion XL (SDXL)、FreeDoM T 和 HPS 等方法。对于图像到图像，使用的方法包括低库自适应 (LoRA)、DreamBooth、SDXL Refiner 和 FreeDoM I，这些方法可以捕捉和优化特定的面部特征。脸部交换使用 DiffFace 和 DCFace，可在不同身份之间交换脸部。面部编辑使用 Imagic、Cycle Diffusion (CycleDiff) 和 Collaborative Diffusion (CoDiff) 来实现更精细的面部编辑。

下表列出了 DiFF 的详细统计数据，它采用了 13 种不同的方法，根据 2,500 张图片以及相应的 20,000 条文字提示和 10,000 条视觉提示合成出高质量的结果。