VGMShield:揭秘视频生成模型滥用的检测与追踪技术

视频生成模型,如 Stable Video Diffusion 和 Videocrafter,已经能够生成合理且高分辨率的视频。但这些技术进步也带来了被恶意利用的风险,比如用于制造假新闻或进行政治宣传。因此,来自弗吉尼亚大学和亥姆霍兹信息安全中心(CISPA)的研究团队着手开发了 VGMShield,一套旨在降低视频生成模型滥用风险的综合解决方案:

现实世界中的参与者分为三个不同的实体:创建者(Creator)、修改者(Modifier)和消费者(Consumer)。创建者可能是摄影师或记者,他们上传信息供消费者使用。修改者可能会恶意使用这些图像生成误导消费者的视频。为了解决视频生成模型带来的安全隐患,研究者提出了一个包含假视频检测、假视频来源追踪和滥用预防的综合防御框架。

消费者 (Consumer)、创建者 (Creator) 和修改者 (Modifier) 在信息/内容生成和消费周期中的角色

假视频检测和追踪

潜在的威胁模型基于两个关键因素:视频来源和生成视频所使用的模型。检测任务分为四种场景:在目标检测中,检测器不仅知道可能生成视频的模型,还知道用于生成视频的数据源。这种场景虽然理想化,但为研究者提供了一个起点,以理解在最佳条件下模型的表现。第二,数据盲检测,其中检测器知道视频的来源,但对生成视频使用的数据分布一无所知。模型盲检测则相反,检测器知道数据分布,但不知道使用的是哪种模型。最后,开放检测是一个更为现实和具有挑战性的场景,检测器对数据源和模型都一无所知。

假视频检测和追踪的不同场景,包括数据和模型的知识情况

研究者们在构建假视频检测和追踪方法时,将这个问题转化为了分类任务。他们基于一个关键假设:假视频会在空间维度上展示出异常特征,同时在时间维度上表现出不一致性。为了识别这些异常,研究者们选择了几种预训练的视频识别模型,这些模型能够理解视频的时空动态。他们选用的模型包括 Inflated 3D ConvNet (I3D)、X-CLIP 和 Video Masked Autoencoders (MAE),每种模型都以其独特的方式处理视频数据。

在检测部分,研究者们根据不同的应用场景调整了模型的训练方法。他们遵循两个基本原则:首先,为了应对开放检测设置,他们确保训练集尽可能多样化,包含了大量的真实和假视频;其次,当任务更加具体时,例如检测器需要识别特定模型或数据分布生成的视频,他们会缩小训练集的范围,使其更贴近实际任务的需求。

在追踪源模型的过程中,研究者们采取了一种假设所有视频均为假视频的方法,并使用多标签分类模型来确定视频可能来源于的九种不同模型之一。与检测任务不同,追踪任务的训练涉及到所有这些模型生成的假视频,这样做可以帮助模型学习到每种模型生成视频的独特特征。

为了验证所提出方法的有效性,研究者采用了两个广泛使用的数据集:WebVid-10M和InternVid,来进行评估。这些数据集拥有大量的视频和相应的文本描述,为训练和评估机器学习模型提供了丰富的资源。研究者进一步收集了所有可用的开源视频生成模型,并针对每一种模型生成了1000个视频,这些视频随后被用于检测和追踪任务。

假视频检测的实验流程

图2展示了假视频检测的实验流程。为了确保真实视频和假视频具有相似的分布特征,研究者们采用了一种特定的方法来生成假视频。这种方法利用了真实视频的第一帧(以及可能伴随的字幕)来生成对应的假视频。这样的处理旨在最小化真实视频和假视频之间的差异,从而使得检测模型不能依赖于其他特征(例如,真实视频总是关于动物的,而假视频总是关于汽车的)。

分类模型由两部分组成:一个作为主干的视频识别模型,以及一个全连接的模型。这个全连接的模型被训练来识别和区分真实视频和假视频。视频识别模型负责提取视频中的关键特征,而全连接层则用于学习如何根据这些特征来区分视频的真实性。通过在真实视频和假视频上训练这个复合模型,研究者们旨在提高检测系统的性能和准确性。这种训练方法有助于模型更好地理解真假视频之间的微妙差异,从而在实际应用中更有效地识别出假视频。

实验的详细参数,包括输入帧数、训练周期、学习率等

研究者展示了在不同数据集和多种生成任务中应用三种检测模型的结果。他们发现,Video Masked Autoencoders(MAE)模型在各种场景下都展现出了稳定性和高效性,尤其是在开放检测设置中,MAE模型的检测准确率显著高于其他模型。

使用不同的检测模型(X-CLIP, MAE, I3D)在 WebVid-10M 数据集上构造视频时的检测结果
MAE 基础的假视频检测模型在 InternVid 数据集上四种设置下的性能

研究者展示了在数据知情和数据不知情两种设置下,使用X-CLIP、I3D和MAE作为后端的追踪模型的性能。特别地,在数据不知情的设置中,即使面对未知数据源的视频,MAE模型仍然能够保持高达90%的准确率,显示出其在追踪任务上的鲁棒性。

在数据感知和数据不可知设置下,使用 Webvid 和 InternVid 数据集的源追踪结果

研究者们采用了Grad-CAM技术来深入分析模型的决策过程。Grad-CAM(梯度类激活映射)是一种可视化技术,它能够展示模型在做出分类决策时所关注的视频区域。通过这种方式,研究者们可以直观地理解检测模型是如何识别出假视频的。

使用 Grad-CAM 展示了 I3D 和 MAE 检测模型在 InternVid-SVD 生成任务中做出检测决定的具体方面

研究者们首先观察了基于I3D和MAE的检测模型,这两种模型在假视频检测上都取得了超过90%的准确率。通过Grad-CAM生成的热图,研究者们发现这些模型主要依赖于视频中的对象来进行判断。例如,I3D模型倾向于关注人脸、栅栏、手指和引擎电池等对象,而MAE模型则集中于识别如下水道盖、人体和手指等异常对象。

源追踪模型依赖于视频中不同位置的特征来确定生成模型

研究者们还注意到,MAE模型在检测时空异常方面表现得更为灵活和敏感。与I3D模型相比,MAE模型不仅能够识别出对象在空间维度上的扭曲,还能够察觉到对象在时间维度上的不连贯性。例如,如果视频中的排水管在连续帧之间发生了明显的形状变化,MAE模型能够捕捉到这种变化,并据此判断视频为假。

通过Grad-CAM的分析,研究者们得出结论,MAE模型之所以在假视频检测上表现更为出色,是因为其能够同时关注视频中的时空异常,而不仅仅是空间上的失真。这一发现对于进一步优化和改进假视频检测技术具有重要意义。

滥用预防

与文本到视频的生成任务相比,图像到视频的生成任务更容易被滥用,因为存在修改者可能恶意使用这些技术。为了防止这种情况,研究者们设计了一种基于对抗性样本的防御机制,专门针对图像到视频的生成任务。

对抗性样本最初是为了解决分类问题而引入的,通过向原始图像中添加对人类视觉不可见但能导致神经网络做出错误判断的小扰动。研究者们采用类似的方法,创建对抗性样本来干扰视频生成模型,使模型的编码器误解输入图像,从而产生不正确和异常的视频帧,保护原始图像不被滥用。

通过引入扰动来实施预防策略,包括有向防御和无向防御策略

研究者们在多个开源和商业视频生成模型上测试了他们的防御策略。他们采用了两种不同的防御方法:有向防御和无向防御。有向防御需要选择一个目标图像来指导添加的扰动,而无向防御则不需要目标图像,直接优化图像以增加损失。

在实验中,研究者们使用了两种嵌入器,分别从Stable Video Diffusion模型中获取。他们设置了不同的参数,并测试了不同等级的扰动强度。实验结果表明,无论是有向防御还是无向防御,都能有效地防止Stable Video Diffusion生成正常的视频。然而,当面对未知的视频生成模型时,使用有向防御方法生成的对抗性样本可能效果较弱。

在不同 η 设置下,使用有向和无向防御方法生成的对抗性样本
不同扰动强度下对抗性样本的防御效果评估

虽然有向防御在某些情况下可以提供更有效的保护,但它可能需要精心选择目标图像,以确保扰动的不可见性。而无向防御虽然不需要目标图像,但可能需要更大的扰动强度来实现类似的防御效果。尽管存在这些挑战,研究者们提出的滥用预防策略为保护图像不被恶意用于视频生成提供了有价值的见解和工具。

论文链接:https://arxiv.org/abs/2402.13126

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/872075.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

安防监控/GB28181视频汇聚平台EasyCVR语音对讲流程正常,设备端无法拾音的原因排查与解决

TSINGSEE青犀EasyCVR视频汇聚平台是一个具备高度集成化、智能化的视频监控汇聚管理平台,拥有远程视频监控、录像、云存储、录像检索与回放、语音对讲、云台控制、告警、平台级联等多项核心功能。EasyCVR安防监控视频系统采用先进的网络传输技术,支持高清…

mbti性格测试应用项目后端开发(基础)

目录 一、需求分析 a.项目功能梳理 b.核心业务流程 c.需求优先级 二、库表设计 a.用户表 b.应用表 c.题目表 d.评分结果表 测评类应用 得分类应用 e.用户答题记录表 三、后端项目初始化 a.打开后端模板项目 b.准备依赖 c.执行模板的初始化 SQL 脚本,…

对话谢秀鹏:创元数字化内功是怎样练成的?

当今市场环境复杂多变,在日益激烈的竞争和快速变化的消费者需求面前产品生命周期越来越短,企业产品开发对市场需求的响应能力、开发效率及成本,成为决定其市场竞争力的关键因素之一。集成产品开发(Integrated Product Development…

顺序表<数据结构 C 版>

目录 线性表 顺序表 动态顺序表类型 初始化 销毁 打印 检查空间是否充足(扩容) 尾部插入 头部插入 尾部删除 头部删除 指定位置插入 指定位置删除 查找数据 线性表 线性表是n个相同特性的数据元素组成的有限序列,其是一种广泛运…

基于jeecgboot-vue3的Flowable流程同时支持bpmn流程设计器与仿钉钉流程设计器(全网首创)

因为这个项目license问题无法开源,更多技术支持与服务请加入我的知识星球。 1、新建流程的时候可以选择使用不同的流程设计器 2、选择bpmn流程设计器 3、选择仿钉钉流程设计器

EMQX开源版安装

一、EMQX是什么 EMQX 是一款开源的大规模分布式 MQTT 消息服务器,功能丰富,专为物联网和实时通信应用而设计。EMQX 5.0 单集群支持 MQTT 并发连接数高达 1 亿条,单服务器的传输与处理吞吐量可达每秒百万级 MQTT 消息,同时保证毫秒…

线程安全(六)AQS 的工作原理

目录 一、AQS 概述1.1 什么是 AQS?1.2 AQS 与 synchronized 区别:1.3 AQS 常见的实现类:二、AQS 的工作原理2.1 state 的用途:2.2 AQS 双向链表:2.3 ConditionObject 双向队列:2.4 总结:画图说明三、AQS 资源同步3.1 AQS 资源同步方式3.2 自定义同步器3.3 常见同步工具类…

顶顶通呼叫中心中间件-被叫路由、目的地绑定(mod_cti基于FreeSWITCH)

顶顶通呼叫中心中间件-被叫路由、目的地绑定(mod_cti基于FreeSWITCH) 1、配置分机 点击分机 -> 找到你需要设置的分机 ->呼叫路由设置为external 2、配置拨号方案 点击拨号方案 -> 输入目的地绑定 -> 点击添加 -> 点击brother conditi ->根据图中配置 co…

【实战系列】PostgreSQL 专栏,基于 PostgreSQL 16 版本

我的 PostgreSQL 专栏介绍及进度 20240715:目前整体进度已完成 85%,完成 16 万字,还有近 5 万字就截稿了。 (venv312) ➜ mypostgres git:(dev) sh scripts/word_statistics_pg_style.sh Filename …

无人机航电系统技术详解

一、系统概述 无人机航电系统(Avionics System)是无人机飞行与任务执行的核心部分,它集成了飞控系统、传感器、导航设备、通信设备等,为无人机提供了必要的飞行控制和任务执行能力。航电系统的设计和性能直接影响到无人机的安全性…

【JVM基础03】——组成-详细介绍下Java中的堆

目录 1- 引言:堆1-1 堆是什么?(What)1-2 为什么用堆?堆的作用 (Why) 2- ⭐核心:堆的原理(How)2-1 堆的划分2-2 Java 7 与 Java 8 的堆区别 3- 小结:3-1 详细介绍下Java的堆?3-2 JVM …

基于springboot与vue的旅游推荐系统与门票售卖

💗博主介绍💗:✌在职Java研发工程师、专注于程序设计、源码分享、技术交流、专注于Java技术领域和毕业设计✌ 温馨提示:文末有 CSDN 平台官方提供的老师 Wechat / QQ 名片 :) Java精品实战案例《700套》 2025最新毕业设计选题推荐…

iPhone数据恢复:如何从iPhone恢复误删除的短信

来自iPhone的意外删除的短信可能很关键。它们可能是来自您常用应用程序、银行交易、付款收据的重要通知,也可能是来自朋友的重要文本、孩子的学校通知等。 如果您也从iPhone丢失了此类消息,我们在这里分享如何在没有备份以及有备份的情况下在iPhone上恢…

SQL Server详细使用教程(包含启动SQL server服务、建立数据库、建表的详细操作) 非常适合初学者

SQL Server详细使用教程(包含启动SQL server服务、建立数据库、建表的详细操作) 非常适合初学者 文章目录 目录 前言 一、启动SQL server服务的三种方法 1.不启动SQL server服务的影响 2.方法一:利用cmd启动SQL server服务 3.方法二:利用SQL Serv…

人工智能算法工程师(中级)课程14-神经网络的优化与设计之拟合问题及优化与代码详解

大家好,我是微学AI,今天给大家介绍一下人工智能算法工程师(中级)课程14-神经网络的优化与设计之拟合问题及优化与代码详解。在机器学习和深度学习领域,模型的训练目标是找到一组参数,使得模型能够从训练数据中学习到有用的模式&am…

2023年高教杯数学建模2023B题解析(仅从代码角度出发)

前言 最近博主正在和队友准备九月的数学建模,在做往年的题目,博主主要是负责数据处理,运算以及可视化,这里分享一下自己部分的工作,相关题目以及下面所涉及的代码后续我会作为资源上传 问题求解 第一题 第一题的思路主要如下:…

【SpringBoot】SpringCache轻松启用Redis缓存

目录: 1.前言 2.常用注解 3.启用缓存 1.前言 Spring Cache是Spring提供的一种缓存抽象机制,旨在通过简化缓存操作来提高系统性能和响应速度。Spring Cache可以将方法的返回值缓存起来,当下次调用方法时如果从缓存中查询到了数据&#xf…

基于 jenkins 部署接口自动化测试项目!

引言 在现代软件开发过程中,自动化测试是保证代码质量的关键环节。通过自动化测试,可以快速发现和修复代码中的问题,从而提高开发效率和产品质量。而 Jenkins 作为一款开源的持续集成工具,可以帮助我们实现自动化测试的自动化部署…

自动化(二正)

Java接口自动化用到的技术栈 技术栈汇总: ①Java基础(封装、反射、泛型、jdbc) ②配置文件解析(properties) ③httpclient(发送http请求) ④fastjson、jsonpath处理数据的 ⑤testng自动化测试框架重点 ⑥allure测试报…

JMeter CSV 参数文件的使用教程

在 JMeter 测试过程中,合理地使用参数化技术是提高测试逼真度的关键步骤。本文将介绍如何通过 CSV 文件实现 JMeter 中的参数化。 设定 CSV 文件 首先,构建一个包含需要参数化数据的 CSV 文件。打开任何文本编辑器,输入希望模拟的用户数据&…