Diffusion Facial Forgery (DiFF) ——一个新的大规模人脸伪造检测数据集

1. 概述

近年来,条件扩散模型(CDM)在图像生成领域备受关注。它能够通过简单的输入(如自然语言提示)生成令人惊讶的忠实图像。然而,这一进步也引发了新的安全和隐私问题。例如,怀有恶意的个人现在可以轻易地大量生成任意人物的虚假图像。这种情况可能会给社会带来严重后果。

为了解决这个问题,研究人员正在努力建立数据集,以识别和分析扩散生成的图像。这些数据集通过寻找检测图像制作中细微差别的线索,促进了伪造检测技术的发展。然而,现有数据集的规模和多样性目前都很有限,尤其是在检测面部伪造图像方面。

为了填补这一空白,本文提出了一个名为 "扩散面部伪造(Diffusion Facial Forgery,DiFF)"的扩散面部伪造数据集,该数据集在规模、多样性和详细注释方面有别于任何现有数据集。DiFF 是一个独特的扩散生成面部伪造数据集。它是第一个专门用于扩散生成的人脸伪造的综合数据集。从下表可以看出,它包含 50 多万张伪造人脸图像,规模远远大于以前的人脸数据集。它使研究人员能够以前所未有的准确度识别和分析伪造图像。

此外,通过对 DiFF 的实验,本文强调了现有的伪造检测模型在检测扩散生成的人脸中的伪造时所面临的局限性。为了克服这一局限性,本文还提出了一种基于边缘图的新方法,该方法可以集成到现有模型中,从而显著提高伪造检测的准确性。

如上所述,这项研究开展了三项重要工作:构建高质量的扩散生成人脸数据集、提供综合基准以及开发新的检测方法。本文将特别介绍高质量扩散生成人脸数据集的构建。
论文地址:https://arxiv.org/pdf/2401.15859.pdf
源码地址:https://github.com/xacheng1996/diff
DiFF 数据集地址:https://github.com/xaCheng1996/DiFF

2. 什么是扩散面部伪造 (DiFF)?

作为数据收集工作的一部分,我们从名人数据集(如 VoxCeleb2 和 CelebA)中精心挑选了 1,070 位名人的图片。这些名人性别均衡,涵盖不同年龄段。每位名人都从在线视频和现有数据集中挑选了约 20 张图片,共计 23,661 张图片。

下一步是生成人脸图像。以往的研究表明,这两者之间存在正相关关系:输入提示的质量越高,生成图像的质量就越好。在此基础上,我们设计了多样化的精确提示,以帮助使用条件扩散模型(CDM)生成高质量的图像。文字提示 (P_t_mod),第三种是视觉提示 (P_v)。所有这些都是扩散模型生成图像的指南。

原始文本提示P_t_ori可半自动生成多样化的自然文本提示。首先,通过选择每位名人正面的清晰图像,整理出 2,531 张高质量图像。使用提示反转工具将这些图片转换成文字说明,并由专家进行审核和改写,以删除不必要的术语并提高清晰度。通过这一过程,共创建了 10,084 条精炼提示。

修改后的文本提示P_t_mod会随机修改 P_t_ori 的关键属性(如性别、发色、面部表情),以增加提示的多样性。这种修改可以生成修改了某些特征的图像。例如,"面部表情丰富的男性 "可以改为 “面部表情丰富的女性”。

视觉提示 (P_v) 包含从每张图像中提取的面部特征(嵌入、素描、地标、分割等)。这些特征被应用到扩散模型中,对人脸编辑等任务特别有用。根据视觉线索对扩散模型进行调节,可以生成更具体的图像。

最后是人脸伪造生成。根据输入类型的不同,人脸伪造生成技术可分为四种主要方法:文本到图像(T2I)、图像到图像(I2I)、人脸互换(FS)和人脸编辑(FE)。文本到图像 (T2I)、图像到图像 (I2I)、人脸互换 (FS) 和人脸编辑 (FE)。

文本到图像 (T2I) 可根据与内容相匹配的特定文本提示(如 “穿制服的男人”)生成图像。这种方法能根据直观的文字说明生成特定的视觉效果。图像到图像(I2I)和面部交换(FS)则使用视觉输入;I2I 复制特定身份的特征,而 FS 则通过交换两个不同身份的面部来执行更精细的操作。面部编辑(FE)结合了文本和视觉条件,在修改某些面部属性(如面部表情和嘴唇动作)的同时保留其他属性。这种方法可以进行更复杂的编辑。

在本文的每个类别中,都采用了 SoTA 来增加生成人脸的多样性。具体来说,对于文本到图像,使用了 Midjourney、Stable Diffusion XL (SDXL)、FreeDoM T 和 HPS 等方法。对于图像到图像,使用的方法包括低库自适应 (LoRA)、DreamBooth、SDXL Refiner 和 FreeDoM I,这些方法可以捕捉和优化特定的面部特征。脸部交换使用 DiffFace 和 DCFace,可在不同身份之间交换脸部。面部编辑使用 Imagic、Cycle Diffusion (CycleDiff) 和 Collaborative Diffusion (CoDiff) 来实现更精细的面部编辑。

下表列出了 DiFF 的详细统计数据,它采用了 13 种不同的方法,根据 2,500 张图片以及相应的 20,000 条文字提示和 10,000 条视觉提示合成出高质量的结果。

3. 总结

本文开发并发布了大规模、高质量的扩散原模人脸伪造数据集 DiFF,以解决现有数据集低估人脸伪造相关风险的问题。该数据集包含 500,000 多张面部图像,每张图像都是根据各种提示创建的,并与原始图像保持高度一致。

论文还对 DiFF 进行了广泛的实验,并提出了一种新的人脸伪造检测基准。它还开发了新的边缘图正则化方法,以提高检测性能。未来,我们计划将 DiFF 扩展到不同的方法和条件中,并探索基于 DiFF 的新挑战,如跟踪和检索扩散生成的图像。

此外,所建数据集中的原始面部图像来自公开的名人在线视频。所有提示信息都经过严格审查,以确保它们不描述特定的生物特征信息。报告指出,生成的图像都经过严格审查,以确保它们符合社会价值观。该公司表示,通过彻底控制数据集 DiFF 的获取过程,它致力于最大限度地降低潜在的滥用风险。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/20106.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【笔记】使用XtraBackup进行热备份

备份环境: 具备dockermysql8(5.7及以下版本更换xtrabackup版本即可,具体版本号查看官网)将云盘挂载到服务器上,可以使用s3协议 #!/bin/bash# 目录配置部分 HOST_BACKUP_DIR"/root/docker/mysql8/backup/full" # 宿主机备份目录 H…

结构体(C保姆级讲解)

前言: 为什么会有结构体,结构体可以用来面熟一个复杂对象,我们知道C语言中有哪些数据类型,有整型,有浮点型,有字符型,但是在生活中,我们需要描述一些比较复杂的东西,比如…

如何理解央行买卖国债?

浙商证券覃汉认为,央行对长债的风险持续关注,30年国债收益率较难突破2.5%,区间底部已经多次印证,在学习效应影响下,长端利率预计继续以震荡调整为主。 1、央行买卖国债的政策要求、历史经验、优势 2023年中央金融工作…

语音助手拦截,拦截小秘书

呼叫中心业务场景下会遇到很多的语音助手和语音小秘书,还有一些漏话提醒、语音信箱等;大部分原因是由于主叫号码标记问题导致的局端和终端拦截策略,电话没有真实有效的触达并产生了通信费,这让很多业务场景下通信成本上涨据不完全…

常用中间件各版本下载

常用中间件下载地址 前言分布式中间件负载均衡中间件缓存中间件数据库中间件其他中间件1、Maven下载地址2、Git下载地址2、JDK下载地址3、MySQL下载地址4、Redis下载地址5、Nacos下载地址6、Tomcat下载地址7、Nginx下载地址8、RocketMQ下载地址8、RabbitMQ下载地址8、Erlang下载…

【Redis】常见的 Redis 集群方案

Redis 集群用于在多个 Redis 节点之间分布数据,以提高可用性和扩展性。常见的 Redis 集群方案有以下几种: 1. 哨兵 (Sentinel) Sentinel 是一种高可用解决方案,用于监控 Redis 主从复制的实例并在主节点发生故障时进行自动故障转移。 优点…

Amazon云计算AWS(三)

目录 五、关系数据库服务RDS(一)RDS的基本原理(二)RDS的使用 六、简单队列服务SQS(一)SQS的基本模型(二)SQS的消息 七、内容推送服务CloudFront(一)CDN&#…

【硬件工程师话家常】新人硬件工程师,工作中遇到的问题list

新人硬件工程师能够通过面试,已经证明是能够胜任硬件工程师职责,当然胜任的时间会延迟,而不是当下,为什么呢?因为学校学习和公司做产品,两者之间有差异,会需要适应期。今天来看看新人硬件工程师…

Python之Mammoth库的详解和使用

Mammoth 旨在转换 .docx 文档(例如由 Microsoft Word、Google Docs 和 LibreOffice 创建的文档)并将其转换为 HTML。Mammoth 旨在通过使用文档中的语义信息并忽略其他细节来生成简单干净的 HTML。例如,Mammoth 将任何具有样式的段落转换Headi…

Vue3-路由详解

文章目录 路由对路由的理解安装 Vue Router基本切换效果两个注意点路由器工作模式to的两种写法命名路由嵌套路由路由传参query参数params参数 路由的props配置replace属性编程式导航重定向 更多相关内容可查看 路由 附git地址:https://gitee.com/its-a-little-bad/…

C前端与Web前端:深入解析二者之间的区别

C前端与Web前端:深入解析二者之间的区别 在编程领域中,C前端与Web前端常常被提及,但这两者之间究竟有何不同?本文将通过四个方面、五个方面、六个方面和七个方面,深入剖析C前端与Web前端之间的区别,帮助读…

项目纪实 | 版本升级操作get!GreatDB分布式升级过程详解

某客户项目现场,因其业务系统要用到数据库新版本中的功能特性,因此考虑升级现有数据库版本。在升级之前,万里数据库项目团队帮助客户在本地测试环境构造了相同的基础版本,导入部分生产数据,尽量复刻生产环境进行升级&a…

电脑缺少运行库,无法启动程序

在我们使用一些软件的时候,由于电脑缺少一些运行库,导致无法启动应用软件,此时需要我们安装缺少的运行库。 比如当电脑提示: Cannot load library Qt5Xlsx.dll 我们就需要下载C得运行库,以满足软件运行需要。 下载链…

某三甲医院智能化系统建设项目施工组织设计(516页)

第十四节、ICU重症监护探视系统设计方案 1、系统总体概述 某市市第一人民医院为一个集医疗、研究、医学教学为一体现代化医院建筑群,不仅在医学界的学术地位和声誉,还应拥有赋予人性的医疗环境,为病人创造最舒适的医疗条件。 探视系统帮助…

如何查看谁连接到了你的Wi-Fi网络?这里提供几种方法或工具

序言 你知道谁连接到你路由器的Wi-Fi网络吗?查看从路由器或计算机连接到Wi-Fi网络的设备列表,找出答案。 请记住,现在很多设备都可以连接到了你的Wi-Fi,该名单包括笔记本电脑、智能手机、平板电脑、智能电视、机顶盒、游戏机、Wi-Fi打印机等。 使用GlassWire Pro查看连接…

chatMed开发日志博客(持续更新中)

目录 1. 项目概述 2. 开发人员团队 3. 大致需求 4. 开发内容 4.1. 前端开发 4.1.1: 前端页面开发 4.1.2: 登录机制以及路由守卫的开发 4.1.3: 文件上传机制和保存机制 4.1.4: 消息传递机制 4.2. 线程池开发 4.3. 在线调试 1. 项目概述 搭建一个基于深度学习的分析平台…

在vue3项目中使用el-tabs切换标签页时echarts图表显示不正确

一.ElementPlus中使用el-tabs el-tabs标签页是用来分隔内容上有关联但是属于不同类别的数据集合。Tabs组件提供了选项卡功能,默认选中第一个标签页,也可以通过value属性来指定当前选中的标签页.此外,el-tabs还提供了tab-click方法&#xff0c…

SpringBoot 七牛云 OSS 私有模式 获取访问链接

目录 一、问题引出 二、在SpringBoot中获取私有访问路径的操作 一、问题引出 由于七牛云OSS的公有模式存在被盗刷的风险,可能导致服务器额外的费用,于是我选择私有模式进行操作。私有模式的访问路径是一个问题,因为需要对应着token和e这两…

Linux系统监控

文章目录 一、系统监控基本介绍二、内存监控2.1、内存监控字段解析2.2、windows下查看内存2.2.1、通过cmd中命令查看内存条信息:2.2.2、通过cmd中命令查看物理内存信息:2.2.3、使用任务管理器查看内存2.2.4、使用资源监视器查看内存2.2.5、使用系统信息工…

apscheduler定时任务报错

最近使用的定时任务遇到了2个问题,简单记录一下 Run time of job xxxx was missed! 我用的是BackgroundScheduler,创建的任务进jobstore调度,然后executor执行。executor是用多线程执行job的,这个报错就是说这个任务的执行时间到…