定制化视频生成新模范!零样本主体驱动,精确运动控制!复旦阿里等发布DreamVideo-2

文章链接:https://arxiv.org/pdf/2410.13830
项目链接:https://dreamvideo2.github.io/

亮点直击

  • DreamVideo-2,首个无需微调,同时支持主体定制和运动控制的零样本视频定制框架,能够通过设计的参考注意力学习主体外观,并使用二值mask引导的运动模块实现运动轨迹控制。

  • 识别出DreamVideo-2中运动控制占主导的问题,并通过使用混合mask 增强参考注意力(即mask参考注意力)和设计重加权扩散损失来解决该问题,从而有效平衡了主体学习和运动控制。

  • 构建了一个大型、全面且多样性丰富的视频数据集,以支持零样本视频定制任务。

  • 大量实验结果表明,DreamVideo-2优于现有的先进视频定制方法。

总结速览

解决的问题

现有的视频定制生成方法需要在测试时进行复杂的微调,且难以平衡主体学习与运动控制,限制了其在实际应用中的效果。

提出的方案

提出了DreamVideo-2,一种无需测试时微调的零样本视频定制框架,通过单张图像和一组边界框序列指导视频生成,确保生成视频的特定主体和运动轨迹。

应用的技术

  • 参考注意力机制:利用模型固有的主体学习能力来学习特定主体。

  • mask 引导的运动模块:通过从边界框中提取的二值mask 来精准控制运动。

  • 掩码参考注意力:将混合隐空间mask 建模方案集成到参考注意力中,以增强目标位置的主体表征。

  • 重加权扩散损失:区分边界框内外区域的贡献,确保主体和运动控制的平衡。

达到的效果

在一个新构建的数据集上的大量实验表明,DreamVideo-2在主体定制和运动控制方面均优于现有的先进方法。

方法

给定一个定义主体外观的单个主体图像和一个描述运动轨迹的边界框序列,DreamVideo-2旨在生成包含指定主体和运动轨迹的视频,无需在推理时进行微调或修改,如下图2所示。为了学习主体外观,利用模型的固有能力,并引入了参考注意力。对于运动控制,提出使用mask作为运动控制信号,并设计了 mask 引导运动模块。此外,为了平衡主体学习和运动控制,通过混合 mask (即mask参考注意力)增强参考注意力,并设计了重加权扩散损失。最后,详细介绍了训练、推理和数据集构建过程。

通过参考注意力进行主体学习

对于主体学习,专注于使用单张图像来捕捉外观细节,这虽然具有挑战性,但有助于实际应用。给定单个输入图像,首先对其进行分割以获得主体图像 ,背景为空白,有效地保留了独特的ID特征,同时最小化背景干扰。

为了捕捉主体外观的复杂细节,先前的研究通常使用额外的图像编码器(例如,CLIP,类似ControlNet的编码器,ReferenceNet)来提取图像特征。然而,引入额外的网络往往会增加参数数量和训练成本。在本研究中,发现视频扩散模型本身就能够提取外观特征,从而无需额外模块即可提高训练效率。

为此,引入了参考注意力,利用模型的固有能力提取多尺度主体特征。将主体图像视为单帧视频并将其输入到原始视频扩散模型中,以获得主体注意力特征 ,这是公式(2)中自注意力或交叉注意力的输出。参考注意力通过实施残差交叉注意力将主体注意力特征注入视频注意力特征 :

当 , , 时,、 和 是参考注意力的投影矩阵,并被随机初始化。此外,将参考注意力中输出线性层的权重初始化为零,以保护预训练模型在训练初期不被破坏。

通过mask引导的运动模块实现运动控制

为了便于运动控制,利用边界框作为用户输入来描绘目标的运动轨迹,提供了灵活性和便利性。定义一组边界框输入序列为 ,其中每个边界框 包含其左上角和右下角的坐标。然后,将这些边界框转换为二值mask 序列 ,其中每个mask 的前景像素值为 1,背景像素值为 0。

最终的运动控制信号表示为 ,以便与包含空白背景的主体图像对齐。与以往工作中直接使用轨迹进行训练相比,mask 提供了更强的控制信号,并将目标限制在边界框内,从而提高了训练效率和运动控制精度。

为了从mask 序列中捕获运动信息,设计了一个mask 引导的运动模块,该模块使用一个时空编码器和一个空间 ControlNet,如前面图 2 所示。虽然先前的研究证明了 3D ControlNet 从序列输入中提取控制信息的有效性,但其高昂的训练成本在实际应用中存在潜在缺陷。鉴于mask 序列中简单的时序关系,使用一个轻量级的时空编码器足以提取所需的时序信息。因此,仅在该编码器上附加一个空间 ControlNet 以进一步提高控制精度。时空编码器由重复的二维卷积和非线性层组成,后接两个时序注意力层和一个输出卷积层,如前面图 2 右侧所示。此外,空间 ControlNet 提取多尺度特征,并将其添加到 VDM 解码器块的卷积层输入中。

平衡主体学习与运动控制

虽然上述两个组件已实现其预期功能,根据经验观察到,运动控制往往占主导地位,这可能削弱主体ID保持的质量。如下图 3(b) 所示,模型仅需少量步骤即可学会运动控制,部分说明了在指定位置生成主体相比于学习外观细节更简单。在图 3(c) 中,即使在延长训练步骤的情况下,参考注意力和运动模块的联合训练也仍然使运动控制占主导地位,从而导致主体ID被破坏。相比之下,如图 3(d) 所示,本文的方法通过以下两个关键设计有效平衡了主体学习和运动控制。

mask 参考注意力 为了在所需位置增强主体的ID特征,通过二值mask将混合隐空间mask 建模引入到参考注意力中。具体来说,将二值mask 调整为隐空间masks 以匹配不同层的注意力特征尺寸。然后,为背景(即框外区域)在 中分配相对较低的权重,得到混合masks ,强制模型在特征层面上更多关注主体,减少对背景的关注。

其中, 是mask 中背景的权重。相比使用忽略背景信息的二值masks ,混合masks 可以增强主体在所需位置的特征,同时减少背景失真。最终,mask 参考注意力可以表示为

其中 表示逐元素相乘操作。对于主体学习,冻结所有原始的 UNet 参数,仅训练附加在每个空间 Transformer 块中的mask 参考注意力,如前面图 2 所示。

重加权扩散损失 为了平衡主体学习和运动控制,进一步提出了一种重加权扩散损失,以区分边界框内外区域对标准扩散损失的贡献。具体而言,放大边界框内区域的贡献,以增强主体学习,同时保留边界框外区域的原始扩散损失。设计的重加权扩散损失可以定义为

其中, 是用于调整主体ID增强的损失权重。

训练、推理和数据集构建

训练 从训练视频中随机选择一帧并进行分割,以获得带有空白背景的主体图像,这相比于使用首帧能缓解过拟合。同时,从训练视频的所有帧中提取主体的边界框,并将其转换为mask 作为运动控制信号。在训练过程中,冻结原始的 3D UNet 参数,并根据公式 (6) 联合训练新添加的mask 参考注意力、时空编码器和 ControlNet。

推理 DreamVideo-2 在推理时无需微调,且不需要修改注意力图。用户只需提供主体图像和边界框序列,即可灵活生成包含指定主体和运动轨迹的定制视频。边界框可以从多种信号中获得,包括首帧和末帧的边界框、首帧边界框及运动轨迹,或参考视频。这些信号随后被转换为二值mask作为输入。

数据集构建 为了便于主体和运动控制的零样本视频定制任务,从 WebVid-10M数据集和内部数据中策展了一个包含视频mask 和边界框的单主体视频数据集。注释是使用 Grounding DINO、SAM和 DEVA模型生成的。本文的数据集与之前的数据集的比较见下表 1。目前已处理 230,160 个视频用于训练。

实验

实验设置

数据集 在策展的视频数据集上训练 DreamVideo-2,并通过包含 50 个主体和 36 个边界框的测试集进行评估。主体图像来源于之前的文献和互联网,而边界框来自 DAVIS 数据集中的视频和 FreeTraj 中使用的框。此外,设计了 60 个文本提示用于验证。

实现细节 使用 AdamW优化器对所有模块进行联合训练,学习率为 ,权重衰减设为 0,训练迭代次数为 30,000。训练时设置混合mask 权重 为 0.75,重加权扩散损失权重 为 2。视频的空间分辨率为 448×256,帧数 为 16。总批量大小为 144,基础模型采用 ModelScopeT2V。推理时,使用 50 步 DDIM 和强度9.0的无分类器指导,生成帧率为8fps 的视频。

基线方法 将本文的方法与 DreamVideo和 MotionBooth进行主体定制和运动控制的对比。此外,还与 DreamVideo 和 VideoBooth进行独立的主体定制对比,并与 Peekaboo、Direct-a-Video和 MotionCtrl进行运动轨迹控制的对比。

评估指标 通过 9 个指标评估方法,重点关注三个方面:总体一致性、主体保真度和运动控制精度。

  • 对于总体一致性,使用 CLIP 图文相似性 (CLIP-T)、时序一致性 (T. Cons.) 和动态程度 (DD) 进行评估,DD 使用光流来测量运动动态。

  • 对于主体保真度,引入了四个指标:CLIP 图像相似性 (CLIP-I)、DINO 图像相似性 (DINO-I)、区域 CLIP-I (R-CLIP) 和区域 DINO-I (R-DINO)。R-CLIP 和 R-DINO 计算主体图像与边界框定义的帧区域之间的相似性。

  • 对于运动控制精度,使用平均交并比 (mIoU) 和质心距离 (CD) 指标 。CD 计算生成的主体质心与目标边界框之间的归一化距离。使用 Grounding-DINO 来预测生成视频的边界框。

主要结果

主体定制和运动控制的联合 对比了本文的方法与基线方法生成带有指定主体和运动轨迹视频的质量,结果如下图 4 所示。观察到,DreamVideo 和 MotionBooth 难以在主体保留和运动控制之间取得平衡,尤其是在训练单一主体图像时。主体与运动的控制强度不平衡影响了它们的表现,导致在增强某一方面时损害了另一方面的效果。相较之下,DreamVideo-2 能够在各种上下文中和谐地生成带有期望主体外观和运动轨迹的定制视频。此外,本文的方法有效地将主体限制在边界框内,更好地符合用户的偏好,增强了其在实际应用中的适用性。

定量比较结果 如下表 2 所示。DreamVideo-2 在文本对齐、主体保真度和运动控制精度方面始终优于所有基线方法,同时在时序一致性上也达到了可比的表现。值得注意的是,本文的方法在 mIoU 和 CD 指标上显著超越了基线方法,验证了在运动控制方面的稳健性。相比之下,DreamVideo 在 CLIP-I 和 DINO-I 指标上表现第二优,但在 mIoU 和 CD 上较弱,表明其在主体ID保留方面具有优势,但在运动控制方面存在局限性。MotionBooth 由于对整个模型进行了微调,CLIP-T 得分最低,但在 mIoU 和 CD 指标上比 DreamVideo 更好,表明使用显式运动控制信号(例如边界框)可能比从参考视频学习更为有效。

主体定制 还评估了独立的主体定制能力。下图 5 展示了定性比较结果。观察到,VideoBooth 对于其训练数据中未包含的主体表现出有限的泛化能力,而 DreamVideo 在单张图像训练时未能捕捉到外观细节。相反,当在与 VideoBooth 相同的数据集上训练时,DreamVideo-2 结合参考注意力和重加权扩散损失,可以生成符合文本提示的目标主体视频。

表 3 的定量比较结果显示,尽管 DreamVideo-2 在 CLIP-I 和时序一致性上保持相当的表现,但它在 CLIP-T、DINO-I 和动态程度上取得了最高分,验证了本文的方法在文本对齐、主体保真度和运动动态方面的优越性。

运动控制 除了主体定制之外,还评估了运动控制能力,如图 6 所示。结果表明,所有基线方法在准确控制主体按边界框定义的运动方面都存在困难。同时,Direct-a-Video 可能会因修改注意力图值而导致生成的物体外观损坏。相比之下,仅使用运动编码器的 DreamVideo-2 能够实现精确的运动控制,并有效地确保主体保持在边界框内,展示了稳健的控制能力。

如下表 4 所示,尽管与 MotionCtrl 相比在时序一致性(T. Cons.)上略低,本文的方法在 CLIP-T 上取得最高得分,并且在 mIoU 和 CD 指标上大幅超越基线方法。

用户研究 为进一步评估 DreamVideo-2,进行了用户研究,邀请 15 名标注员对三种方法生成的 300 组视频进行评分。每组包含 3 个生成的视频、一个主体图像、文本提示和对应的边界框。根据文本对齐度、主体保真度、运动对齐度和总体质量四个方面进行评估,并通过多数投票得出结果。下图 7 显示,用户在四个方面均更偏好本文的方法。

消融实验

各组件的效果 本文进行了消融实验以探究各组件的效果,如下图 8(a) 所示。观察到,去除mask 机制或重加权扩散损失后,主体ID的质量因运动控制的主导性而下降。虽然在mask 参考注意中使用二值mask 有助于保留主体ID,但由于忽略了注意力中的背景信息,往往导致背景模糊、视频质量低下。值得注意的是,在没有运动编码器的情况下,mask 参考注意力仍然能够实现粗略的轨迹控制。

下表 5 的定量结果表明,去除mask 机制、运动编码器或重加权扩散损失后,所有指标的性能均会下降。这证实了各组件对整体性能的贡献;

混合mask 权重 的效果 为确定最佳混合mask 权重 ,对其值进行调整并测量其影响。如上图 8(b) 所示,使用 = 1 会导致主体ID退化,而 = 0 则会导致背景模糊。此外,观察到增加 可以提高视频质量。为平衡主体ID与视频质量,最终选择 = 0.75。

表 5 显示了定量结果。 会导致 CLIP-T 得分最低但 mIoU 最高。较小的 λM 可以增强位置信息但会抑制背景,从而提高控制精度但降低视频质量。此外,结果表明使用混合mask 在主体保真度方面始终优于不使用,突显其有效性。

结论

本文提出了 DreamVideo-2,这是一种创新的零样本视频定制框架,能够生成具有特定主体和运动轨迹的视频。引入了参考注意力用于主体学习,并设计了mask 引导的运动模块以实现运动控制。针对 DreamVideo-2 中运动控制主导性的问题,在参考注意力中引入了混合mask 并设计了重加权扩散损失,从而有效地平衡了主体学习和运动控制。大量实验结果表明,DreamVideo-2 在主体定制和运动轨迹控制方面均具有优势。

局限性 尽管本文的方法能够定制单个主体与单一轨迹,但在生成包含多个主体和多重轨迹的视频时仍存在不足。一种解决方案是构建更为多样化的数据集并训练通用模型。

参考文献

[1] DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/884609.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql--多表查询

一、联合查询 作用:合并结果集就是把两个select语句的查询结果合并到一起! 合并结果集有两种方式: UNION:合并并去除重复记录,例如:SELECT * FROM t1 UNION SELECT * FROM t2; UNION ALL&a…

PHP图书馆借阅管理系统-计算机毕业设计源码01649

基于HTML5CSS的图书馆借阅管理系统的设计与实现 摘 要 随着互联网大趋势的到来,社会的方方面面,各行各业都在考虑利用互联网作为媒介将自己的信息及时有效地推广出去,而其中最好的方式就是建立网络管理系统,并对其进行信息管理。本…

VMware系统镜像推荐网站

今天准备找一个Mac系统的镜像,在网上搜大部分都是广告,有的还做的很隐蔽,不点进去都无法确定,非常麻烦,不如多花点时间自己整理一个使用的网站。 如果有更优推荐,请在评论中说明,我会及时更新并…

vscode通过.vscode/launch.json 内置php服务启动thinkphp 应用后无法加载路由解决方法

我们在使用vscode的 .vscode/launch.json Launch built-in server and debug 启动thinkphp应用后默认是未加载thinkphp的路由文件的, 这个就导致了,某些thinkphp的一些url路由无法访问的情况, 如http://0.0.0.0:8000/api/auth.admin/info这…

中国90米土壤渗流因子Fsic数据

Fsic(土壤渗流因子):土壤渗流因子的计算是根据美国农业部(USDA)土壤质地分类, 进行分类、赋值并归一化,得到土壤渗流因子Fsic的值。将13种土壤质地类型分别在0-1之间均等赋值得到。其中Fsic值越高,代表土壤渗水能力越强,Fsic值域范…

【大语言模型】ACL2024论文-03 MAGE: 现实环境下机器生成文本检测

【大语言模型】ACL2024论文-03 MAGE: 现实环境下机器生成文本检测 目录 文章目录 【大语言模型】ACL2024论文-03 MAGE: 现实环境下机器生成文本检测目录摘要研究背景问题与挑战如何解决核心创新点算法模型实验效果(包含重要数据与结论)主要参考工作后续优…

【Linux】centos7安装配置DHCP、FTP服务

文章目录 一、DHCP服务介绍1、DHCP服务器2、DHCP客户机3、工作流程 二、安装配置DHCP1、查询是否安装DHCP软件包2、安装3、配置DHCP4、修改配置信息5、重启 二、FTP服务1、安装并启动VSFTP服务2、安装vsftp客户端 一、DHCP服务介绍 DHCP服务主要功能是动态分配IP地址&#xff…

HTML 基础标签——链接标签 <a> 和 <iframe>

文章目录 1. `<a>` 标签属性详细说明示例2. `<iframe>` 标签属性详细说明示例注意事项总结链接标签在HTML中是实现网页导航的重要工具,允许用户从一个页面跳转到另一个页面或嵌入外部内容。主要的链接标签包括 <a> 标签和<iframe> 标签。本文将深入探…

Java日志脱敏(二)——fastjson Filter + 注解 + 工具类实现

背景简介 日志脱敏 是常见的安全需求&#xff0c;最近公司也需要将这一块内容进行推进。看了一圈网上的案例&#xff0c;很少有既轻量又好用的轮子可以让我直接使用。我一直是反对过度设计的&#xff0c;而同样我认为轮子就应该是可以让人拿去直接用的。所以我准备分享两篇博客…

Launcher3 去掉桌面搜索索框

文章目录 需求实现需求说明 参考资料修改文件实现思路首页显示的搜索框去除应用列表中的搜索框去除解决方案代码跟踪代码扩展 需求 Launcher3 去掉搜桌面索框 实现需求说明 每个平台平台源码有区别&#xff0c;比如&#xff1a;MTK、高通、展讯、RK、谷歌…单个平台下 不同A…

红队-shodan搜索引擎篇

如涉及侵权马上删除文章 笔记的只是方便各位师傅学习知识,以下网站只涉及学习内容,其他的都与本人无关,切莫逾越法律红线,否则后果自负 一.shodan原理与功能的介绍 Shodan Search Engine 它是专门搜网络设备的,只要联网的,只要有IP地址的都可以称为网络设备 1.shodan&#x…

初始JavaEE篇——多线程(5):生产者-消费者模型、阻塞队列

找往期文章包括但不限于本期文章中不懂的知识点&#xff1a; 个人主页&#xff1a;我要学编程程(ಥ_ಥ)-CSDN博客 所属专栏&#xff1a;JavaEE 文章目录 阻塞队列生产者—消费者模型生产者—消费者模型的优势&#xff1a;生产者—消费者模型的劣势&#xff1a; Java标准库中的阻…

基于Multisim汽车尾灯电路左转右转刹车检查功能电路(含仿真和报告)

【全套资料.zip】汽车尾灯电路左转右转刹车检查功能电路设计Multisim仿真设计数字电子技术 文章目录 功能一、Multisim仿真源文件二、原理文档报告资料下载【Multisim仿真报告讲解视频.zip】 功能 电路有按键控制&#xff0c;分别对应左转&#xff0c;右转&#xff0c;刹车&a…

实现GUI界面中的logo图片的编码与隐藏

实现GUI界面中的logo图片的编码与隐藏 一、问题描述二、解决办法 一、问题描述 利用PyQt5编写的GUI界面&#xff0c;有时候需要我们添加自定义的图片来作为UI界面的logo&#xff0c;在源码使用时&#xff0c;logo的形式一般不影响使用&#xff0c;但是当我们需要将软件进行打包…

LabVIEW离心泵性能优化测试系统

开发了一套基于LabVIEW平台开发的离心泵性能优化测试系统。系统集成了数据采集、流量控制、数据存储、报表生成等功能&#xff0c;提供了低成本、便捷操作的解决方案&#xff0c;适用于工业场景中对离心泵性能的精确测评。 项目背景 随着工业化进程的加速&#xff0c;离心泵在…

论文阅读(三十二):EGNet: Edge Guidance Network for Salient Object Detection

文章目录 1.Introduction2.Related Works3.Salient Edge Guidance Network3.1Complementary information modeling3.1.1Progressive salient object features extraction3.1.2Non-local salient edge features extraction 3.2One-to-one guidance module 4.Experiments4.1Imple…

三大细分领域入选,九州未来再登2024边缘计算产业图谱

10月31日&#xff0c;经过数月的深入调研和专家严格评估&#xff0c;边缘计算社区正式发布《2024边缘计算产业图谱》。该图谱全面收录中国边缘计算领域最具活力的100家企业、科研机构、高校及标准组织等单位&#xff0c;深入梳理产业链上下游发展情况&#xff0c;精准研判边缘计…

【HarmonyOS】鸿蒙系统

文章目录 前言一、鸿蒙OS概述1. 定义与特性2. 核心技术理念3. 技术架构设计1. 应用层2. 框架层3. 系统服务层4. 内核层 二、分布式架构分布式架构的核心理念分布式能力的实现关键技术 三、 总结 前言 鸿蒙OS是由华为推出的一款开源操作系统&#xff0c;旨在满足智能终端设备的…

强网杯 2024 pwn false AK

强网杯 2024 pwn &#x1f3c4;&#x1f3fd;‍♀️前言&#x1f3c4;&#x1f3fd;‍♂️heap&#xff08;UAF house of banana orw&#xff09;&#x1f3c4;&#x1f3fd;分析&#x1f3c4;&#x1f3fd;解题&#x1f3c4;&#x1f3fd;exp &#x1f3c4;&#x1f3fd;‍♂…

w016基于Springboot的房产销售系统

&#x1f64a;作者简介&#xff1a;拥有多年开发工作经验&#xff0c;分享技术代码帮助学生学习&#xff0c;独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。&#x1f339;赠送计算机毕业设计600个选题excel文件&#xff0c;帮助大学选题。赠送开题报告模板&#xff…