视觉AIGC识别——人脸伪造检测、误差特征 + 不可见水印

视觉AIGC识别——人脸伪造检测、误差特征 + 不可见水印

  • 前言
  • 视觉AIGC识别
  • 【误差特征】DIRE for Diffusion-Generated Image Detection
    • 方法
      • 扩散模型的角色
      • DIRE作为检测指标
    • 实验结果
      • 泛化能力和抗扰动
  • 人脸伪造监测(Face Forgery Detection)
    • 人脸伪造图生成
  • 其他类型假图检测(Others types of Fake Image Detection)


请添加图片描述

🌈你好呀!我是 是Yu欸
🌌 2024每日百字篆刻时光,感谢你的陪伴与支持 ~
🚀 欢迎一起踏上探险之旅,挖掘无限可能,共同成长!

前些天发现了一个人工智能学习网站,内容深入浅出、易于理解。如果对人工智能感兴趣,不妨点击查看。

前言

续篇:一文速览深度伪造检测(Detection of Deepfakes):未来技术的守门人

参考:https://mp.weixin.qq.com/s/inGjMdX9TTUa3hKWaMkd3A

视觉AIGC识别

根据已有的研究工作调研,将视觉AIGC识别粗略划分为:

  • 人脸伪造检测(Face Forgery Detection):包含人脸的AIG图片/视频的检测,例如AI换脸、人脸操控等。此类方法主要关注带有人脸相关的检测方法,检测方法可能会涉及人脸信息的先验。
  • AIG整图检测(AI Generated-images Detection):检测一整张图是否由AI生成,检测更加的泛化。这类方法相对更关注生成图与真实图更通用的底层区别,通常专注于整张图,比如近年爆火的SD、Midjounery的绘图;
  • 其他类型假图检测(Others types of Fake Image Detection):此类方法更偏向于 局部伪造、综合伪造等一系列更复杂的图片造假,当然人脸伪造也属于局部、复杂,但是是人脸场景。将AIG图与真实图拼凑、合成的图片识别也属于这一类。
    这三种类型之间划分并不明晰,很多方法同时具有多种检测能力,可划分为多种类型。严格意义上说AIG整图和其他造假图检测类型可能都会包含人脸信息,但三种类型方法往往技术出发点也不同。

【误差特征】DIRE for Diffusion-Generated Image Detection

Arxiv 2023

方法

作者发现DM 图可以被近似地被扩散模型重建,但真实图片不行。将重建图和原图的图片差异记为扩散重建差(DIffusion Reconstruction Error,DIRE),则DIRE可以作为特征进行2分类训练,判断是否虚假,泛化性会高很多;

扩散模型的角色

扩散模型在这里充当了一种“数字时间机器”的角色,通过将图像“倒带”回过去的某个状态,然后再“快进”到现在,来重建图像。对于合成图像而言,这种“时间旅行”的过程中丢失的信息较少,因为它们本身就是由类似的深度学习模型生成的,因此它们与扩散模型重建的版本更为接近。相反,真实图像在这一过程中会丢失更多的细节,因为它们包含了更复杂和多样的信息,这些信息在通过扩散模型的“滤镜”时难以保留。

DIRE作为检测指标

将DIRE视作一种“指纹差异仪”,它可以测量一个图像经过时间机器旅行前后的变化量。对于合成图像,这种变化相对较小,因为它们本质上已经是“时间旅行”的产物。对于真实图像,变化较大,因为时间旅行过程中它们失去了更多的原始信息。

重建图像差DIRE可以区分真实图和合成图的原因如下图:

  • 合成图在重建后变化往往较小;
  • 真实图在重建后变化相对较大;

在这里插入图片描述
在这里插入图片描述

我的理解是,真实图在重建时会丢失很多信息,而生成图由于本身就是模型生成的,重建时信息变化相对不大。因此差异可以反映其真假。

该方法通过预训练的扩散模型(Denoising Diffusion Implicit Models,DDIMs[7])对图片进程重建,测量输入图像与重建图像之间的误差。其实这个方法和梯度特征的方法LGrad很像,区别在于上面是通过 Transformation Model转换模型获得图像梯度,这里通过 DDIM 重建图计算差。

实验结果

此外,作者提出了一个数据集 DiffusionForensics,同时复现了8个扩散模型对提出方法进行识别(ADM、DDPM、iDDPM, PNDM, LDM, SD-v1, SD-v2, VQ-Diffusion);

  • 跨模型泛化较好:比如ADM的DIRE 对 StyleGAN 也支持,
  • 跨数据集泛化:LSUN-B训练模型在ImageNet上也很好;
  • 抗扰动较好:对JPEG压缩 和 高斯模糊的图,性能很好;

最后看下实验指标,看起来在扩散模型上效果很好,这ACC/AP都挺高的,不知道在GAN图上效果如何。


实验结果显示,这种基于扩散重建差的方法在区分真实与合成图像上表现出色,这就像是在深度伪造的海洋中拥有了一张精确的导航图。这种方法在不同的扩散模型上都展现了高度的准确性,这表明了它作为一种检测工具的潜力。

总的来说,这篇研究为深度伪造检测领域提供了一个新的视角和工具,其通过利用扩散模型的独特能力,提出了一个既直观又有效的方法来区分真实与合成图像。这种方法的成功展示了深度学习领域中“以毒攻毒”的潜力,即使用生成技术的原理来反击深度伪造的问题。

泛化能力和抗扰动

这一方法之所以具有较好的跨模型和跨数据集泛化能力,可以类比于一种“通用翻译器”,它不仅能理解不同语言(即由不同模型生成的图像)之间的差异,还能在不同的环境(即不同的数据集)中有效工作。此外,其良好的抗扰动性能表明,这种方法像是具有一种“稳定的免疫系统”,能够在面对图像质量下降(如JPEG压缩)或视觉干扰(如高斯模糊)时,依然保持高效的检测能力。

人脸伪造监测(Face Forgery Detection)

人脸伪造图生成

人脸伪装图根据身份信息是否更改划分为身份信息不变类和身份替换类。

身份不变类伪造图在图片修改/生成时不修改图片中人物的身份信息,包括:

  • 人脸编辑:编辑人脸的外部属性,如年龄、性别或种族等。
  • 人脸再制定:保留源主体的身份,但操纵其口部或表情等固有属性;
    https://github.com/harlanhong/awesome-talking-head-generation
    https://github.com/Rudrabha/Wav2Lip
  • 身份替换类伪造图在图片修改时同时改变其中人的身份信息
    • 人脸转移:它将源脸部的身份感知和身份不相关的内容(例如表情和姿势)转移到目标脸部,换脸也换表情等等,相当于把自己脸贴在别人的头上;
    • 换脸:它将源脸部的身份信息转移到目标脸部,同时保留身份不相关的内容。即换脸,但不换表情,自己的脸在别人脸上做不变的事情;
    • 人脸堆叠操作(FSM):指一些方法的集合,其中部分方法将目标图的身份和属性转移到源图上,而其他方法则在转移身份后修改交换后图的属性,多种方法的复合;

其他类型假图检测(Others types of Fake Image Detection)

  • 社交媒体中发的篡改图:Robust Image Forgery Detection Against Transmission Over Online Social Networks, CVPR 2022: Paper Github
  • 通用图片造假检测(局部造假等):Hierarchical Fine-Grained Image Forgery Detection and Localization, CVPR 2023: Paper Github

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/711579.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LabVIEW最佳传输系统设计

LabVIEW最佳传输系统设计 介绍了基于LabVIEW软件开发的最佳基带传输系统和最佳带通传输系统的设计。通过软件仿真实现了脉冲成形滤波器和匹配滤波器的设计,证明了系统在消除码间干扰和抗噪声方面的优异性能。此设计不仅激发了学生的学习兴趣,还有助于提…

智能家居控制系统(51单片机)

smart_home_control_system 51单片机课设,智能家居控制系统 使用及转载请标明出处(最好点个赞及star哈哈) Github地址,带有PPT及流程图 Gitee码云地址,带有PPT及流程图 ​ 以STC89C52为主控芯片,以矩阵键…

Linux基本指令(上)

在Linux中,将文件夹称为目录,后面的内容都与目录相关。 1. ls指令 语法: ls [选项][目录或文件] 功能:对于目录,该命令列出该目录下的所有子目录与文件。对于文件,将列出文件名以及其他信息。 常用选项 …

MySQL的索引和B+tree结构

目录 0.关于索引的常见面试题 1.什么是索引? 索引的优缺点 2.索引的数据结构,为什么InnoDb引擎使用Btree作为索引的数据结构? 分析怎样的索引才是好的 二插搜索树 红黑树 B-Tree BTree 哈希 为什么 InnoDB 存储引擎选择使用 Btree 索…

iTOP-3588开发板快速测试手册Android12系统功能测试

RK3588是一款低功耗、高性能的处理器,适用于基于arm的PC和Edge计算设备、个人移动互联网设备等数字多媒体应用,RK3588支持8K视频编解码,内置GPU可以完全兼容OpenGLES 1.1、2.0和3.2。RK3588引入了新一代完全基于硬件的最大4800万像素ISP&…

洛谷题单_递推与递归

P1255 数楼梯 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) //不满分做法&#xff1a;没有高精度 #include <bits/stdc.h> using namespace std; const int N5006; int dp[N];//dp[i]表示到第i节楼梯有dp[i]中方案 int main(){int n;cin>>n;dp[1]1;dp[0]1;for(i…

MySQL(基础篇)——多表查询

一.多表关系 一对多(多对一) 多对多一对一 1.一对多(多对一) a.案例&#xff1a;部门与员工的关系 b.关系&#xff1a;一个部门对应多个员工&#xff0c;一个员工对应一个部门 c.实现&#xff1a;在多的一方建立外键&#xff0c;指向一的一方的主键 2.多对多 a.案…

Elasticsearch入门-环境安装ES和Kibana以及ES-Head可视化插件和浏览器插件es-client

Elasticsearch入门-环境安装ES和Kibana 安装 ES Windows安装ESHead安装浏览器插件 es-clientKibana 安装 安装es,安装header 安装kibana&#xff0c;安装多种分词器ik… 安装 ES Windows安装 ① 下载压缩包并解压官网链接&#xff1a;https://www.elastic.co/cn/downloads/ela…

canvas坐标系统 webgl坐标系统 uv纹理坐标系统 原点

一、canvas原点在左上角&#xff0c;x轴正方向向右&#xff0c;y轴正方向向下&#xff0c;一个点对应一个像素 二、webgl原点在正中间&#xff0c;x轴正方向向右&#xff0c;y轴正方向向上&#xff0c;数据显示范围在[-1,1]之间&#xff0c;超过此范围不显示数据 三、uv原点在左…

如何用ChatGPT+GEE+ENVI+Python进行高光谱,多光谱成像遥感数据处理?

原文链接&#xff1a;如何用ChatGPTGEEENVIPython进行高光谱&#xff0c;多光谱成像遥感数据处理&#xff1f; 第一&#xff1a;遥感科学 从摄影侦察到卫星图像 遥感的基本原理 遥感的典型应用 第二&#xff1a;ChatGPT ChatGPT可以做什么&#xff1f; ChatGPT演示使用 …

工厂模式:没你想像的那么难

工厂模式 工厂模式是一种创建型设计模式&#xff0c;它允许创建对象而无需指定将要创建的对象的具体类。它通过将对象的创建委托给一个单独的方法或类来完成&#xff0c;从而隐藏了对象的实例化逻辑。这样可以提高代码的灵活性&#xff0c;减少了代码中的重复和耦合。 在工厂…

2021年下半年教师资格证考试《高中信息技术》题

4.使用某转码软件对一段时长为2分钟的AVI视频进行转码&#xff0c;转码后的视频信息如图4所示&#xff0c;计算存储该视频文件所需的空间大小为&#xff08;C &#xff09;。 A18MB B36MB C60MB D512MB 6.某21位二进制代码100101011010011110101&#xff0c;已知该代码由3个…

html基础操练和进阶修炼宝典

文章目录 1.超链接标签2.跳锚点3.图片标签4.表格5.表格的方向属性6.子窗口7.音视频标签8.表单9.文件上传10.input属性 html修炼必经之路—各种类型标签详解加展示&#xff0c;关注点赞加收藏&#xff0c;防止迷路哦 1.超链接标签 <!DOCTYPE html> <html lang"en…

再议【每天进步一点点】

概述 之前听姜胡说&#xff0c;讲到了他自己日更博客的故事&#xff0c;也就是每天去更新一篇博客文章。 日更&#xff0c;其实是一件很可怕的事情。 先不说文章的深度如何&#xff0c;单单从时间的耗费上&#xff0c;文字的积累上&#xff0c;以及对事物的敏感度上&#xf…

vue实现自定义树形穿梭框功能

需求&#xff1a; 我们在开发过程中&#xff0c;会遇到需要将一个数据选择做成穿梭框&#xff0c;但是要求穿梭框左侧为树形结构、右侧为无层级结构的数据展示&#xff0c;ElementUI自身无法在穿梭框中添加树形结构&#xff0c;网上搜到了大佬封装的插件但是对于右侧的无树形结…

【从Python基础到深度学习】9.Python 语法基础

一、常量与变量 常量:程序中使用的具体的数、字符。在运行过程中&#xff0c;值无法更改 变量:表示一一个存储单元&#xff0c;其中存储的值可以修改 如&#xff1a;a5,b6 变量命名: 1、只能包含字母、数字、下划线 2、只能以字母、下划线开头 3、不要使用关键字作为变量名称 …

不知道伦敦银模拟账户该如何使用?至少3个用法

由于模拟交易的特别属性&#xff0c;很多人对模拟交易并不用心&#xff0c;假的资金用心干什么&#xff1f;就算交易得再好&#xff0c;盈利得再多&#xff0c;假的资金会变成真的吗&#xff1f;因此当然不会这么用心对待伦敦银模拟账户交易账户。实际上&#xff0c;这种观点是…

List集合的Stream流式操作实现数据类型转换

目录 问题现象&#xff1a; 问题分析&#xff1a; 解决方法&#xff1a; 拓展&#xff1a; 1、Collectors.toList() 2、Collectors.toCollection(ArrayList::new) 3、Collectors.toCollection(LinkedList::new) 4、Collectors.toCollection(LinkedHashSet::new) 5、Collector…

MAC M1 安装mongodb7.0.5 版本

1、进入官网 Download MongoDB Community Server | MongoDBDownload MongoDB Community Server non-relational database to take your next big project to a higher level!https://www.mongodb.com/try/download/community 2、选择版本 3、下载后解压 放到 /usr/local 并修改…

Facebook Messenger链接分享:如何创建链接并设置自动化内容

Facebook Messenger链接是指基于Facebook用户名创建的会话链接&#xff0c;用户可以在其Facebook页面的设置部分复制此链接进行分享。然后将该链接直接粘贴到独立站、电子邮件、名片或社交媒体中&#xff0c;让目标受众可以一键进入对话。为了满足某些商家的需求&#xff0c;Fa…