Make Pixels Dance: High-Dynamic Video Generation论文解析

高动态视频生成的新进展

  • Make Pixels Dance: High-Dynamic Video Generation
    • 高动态视频生成的新进展
    • 前言
    • 视频生成模式
    • 摘要
    • 论文十问
    • 实验
      • 数据集
      • 定量评估指标
      • 消融研究
    • 训练和推理技巧
      • 训练技术
      • 推理技术
    • 更多的应用

Make Pixels Dance: High-Dynamic Video Generation

高动态视频生成的新进展

在这里插入图片描述

前言

动态视频生成一直是人工智能领域的一个重要且富有挑战性的目标。尤其是生成复杂场景和丰富动作的高质量视频,更是难上加难。很多现有的视频生成模型,主要集中在从文本描述生成视频,往往只能输出运动幅度非常小的视频,这也是行业的一个难点。

最近,字节跳动的研究人员提出了一个非常有创意的方法——PixelDance,利用图像的先验知识指导视频生成过程,从而大幅提升了视频的动态性。具体来说,该方法除了使用文本描述,还同时使用视频的第一帧图像最后一帧图像作为条件,来生成中间的动态视频内容。

第一帧图像主要提供复杂场景和对象细节信息

最后一帧图像则指导视频朝着期望的方向生成。

为了提高模型的泛化性,研究人员使用了一些巧妙的数据增强技术,避免模型严格复制最后一帧的图像作为视频结尾。

在MSR-VTT和UCF-101公开数据集上,PixelDance都取得了非常显著的性能提升。

尤其令人印象深刻的是,这种利用图像先验知识的方法,甚至可以让模型生成一些完全不存在于训练数据中的域,如动漫、科幻等风格的视频。我相信这种通过引导模型关注生成内容动力学的做法,为动态视频生成开辟了新的思路,也会对创意视频内容的合成产生深远的影响。下一步,进一步扩大模型规模,使用更高质量的开放域视频数据进行训练,都将是有益探索的方向。

总的来说,这篇研究为复杂高动态视频生成树立了新的基准,值得关注。我期待未来的研究能更进一步,让机器像电影导演一样,创作出有连贯剧情的长视频,甚至智能电影!

论文地址:https://arxiv.org/abs/2311.10982

官网地址:https://makepixelsdance.github.io

视频生成模式

第一种模式为基础模式,用户只需提供一张指导图片和相应文本描述,即可生成高度一致且富有动态性的视频。

在这里插入图片描述

在这里插入图片描述

第二种模式是高级魔法模式,为用户提供更大的想象和创造空间。在这一模式下,用户需要提交两张指导图片和相关文本描述,以生成更具挑战性的视频内容。

在这里插入图片描述
在这里插入图片描述

摘要

如何制作动作丰富、视觉效果复杂的高动态视频,是人工智能领域面临的重大挑战。

不幸的是,目前最先进的视频生成方法,主要专注于文本到视频的生成,倾向于以最小的动作制作视频剪辑,尽管保持高保真度。

我们认为仅仅依靠文本指令是不够的,对于视频生成来说是次优的。在本文中,我们介绍了PixelDance,这是一种基于扩散模型的新方法,它将第一帧和最后一帧的图像指令与视频生成的文本指令结合在一起。

综合实验结果表明,使用公开数据训练的pixeldance在合成复杂场景和复杂动作的视频方面表现出明显更好的熟练程度,为视频生成树立了新的标准

论文十问

  1. 论文试图解决什么问题?

这篇论文解决了高动态视频生成的问题,包括复杂场景和精细运动。现有的文本生成视频产生的视频短且动作小。

  1. 这是否是一个新的问题?

不是一个新的问题,是视频生成领域的一个关键难题。文章提出来一种图文视频生成框架解决了这个问题。

  1. 这篇文章要验证一个什么科学假设?

以往的研究都是采用文本生成视频,作者认为,仅依靠文本指令对于视频生成是不够的,应该加入第一帧和最后一帧指令。这样可以显著提高视频的生成质量和动态性。

  1. 有哪些相关研究?如何归类?谁是这一课题在领域内值得关注的研究员?

相关研究包括基于GAN、具有VQVAE的Transfomers的文本到视频生成过程。关键研究员有Songwei Ge、Jonathan Ho等。

  1. 论文中提到的解决方案之关键是什么?

采用第一帧,文本提示,最后一帧来指导视频生成过程。并且设置了精妙的训练推理技巧。

  1. 论文中的实验是如何设计的?

在MSR-VTT、UCF-101数据集上进行定量评估。针对不同指导条件做消融实验。生成长视频进行质量分析。

  1. 用于定量评估的数据集是什么?代码有没有开源?

使用的公开数据集有MSR-VTT、UCF-101、LAION-400M等。代码暂未开源。
MSR-VTT 是一个视频检索数据集,每个视频都有描述。
UCF-101 是一个动作识别数据集,具有 101 个动作类别。

  1. 论文中的实验及结果有没有很好地支持需要验证的科学假设?

定量结果和质量分析充分验证了科学假设。

  1. 这篇论文到底有什么贡献?

主要贡献是提出图文视频生成框架PixelDance,在公开数据上取得新成绩。
1.生成更长的视频。
2.动作更加丰富。
3.自然转换镜头。

  1. 下一步呢?有什么工作可以继续深入?

下一步的工作可以使用更高质量的视频数据进行训练,在特定域进行微调,扩大模型规模等。

实验

数据集

MSR-VTT: 是一个视频检索数据集,每个视频都有描述。
UCF-101 :是一个动作识别数据集,具有 101 个动作类别。

定量评估指标

1.FID 和 FVD 都是测量生成的视频和真实数据之间的分布距离。
2.IS评估生成的视频的质量。
3.CLIPSIM估计生成的视频和相应文本之间的相似性。

基于MSR-VTT数据集,指标为CLIPSIM和FVD。

可以看到PixelDance生成的视频和真实数据的分布最为接近,和文本描述最为相似。

在这里插入图片描述

基于UCF-101数据集,指标为IS、FID和FVD。

可以看到PixelDance生成的视频和真实数据的分布最为接近,生成的视频质量最高。

在这里插入图片描述

消融研究

这篇论文进行了消融实验来评估PixelDance模型中的关键组成部分,包括文本指令、第一帧图像指令和最后一帧图像指令的作用。

  1. 和只使用文本指令的基准T2V模型相比,PixelDance取得了明显更好的生成视频质量,证明了图像指令的有效性。
  2. 当移除文本指令时,生成视频的FID和FVD指标有一定程度的下降。这说明文本指令可以帮助增强视频中关键元素的跨帧一致性,如人物服饰等。
  3. 当不使用最后一帧图像指令训练时,模型生成视频的质量也有所下降。这证明了最后一帧图像在指导视频生成朝着期望结束状态的效用。
  4. 即使在评估中不提供最后一帧图像,加入该指令进行训练的模型仍优于没有的模型。这说明最后一帧图像指令可以增强模型对运动动力学的建模能力和时序一致性。
  5. 整体而言,各种指令的组合可以让模型在复杂视频生成上取得巨大提升。每种指令都在帮助模型从不同方面学习如何生成连贯、逼真的视频。

所以这篇论文的消融实验全面验证了不同指令提供的价值,也解释了PixelDance为什么能生成质量更高、动作更丰富的视频。

在这里插入图片描述

训练和推理技巧

这篇论文为了更好地利用图像指令指导视频生成,设计了一些独特的训练和推理技术:

训练技术

(1)第一帧图像指令使用真实视频的第一帧,强制模型严格遵循该指令。
(2)最后一帧指令随机选择真实视频最后三帧中的一帧,增加样本多样性。
(3)在最后一帧指令上加入噪声,增强模型的鲁棒性。
(4)以一定概率随机丢弃最后一帧指令,避免模型过度依赖该指令。

推理技术

(1)前τ步使用最后一帧指令,指导视频生成推向期望结局。
(2)后T-τ步丢弃该指令,生成更流畅、连贯的内容。
(3)τ的大小控制最后一帧指令的影响程度。

这些技巧让模型在训练阶段学习视频内容的内在动力学,也让推理过程中生成的视频既遵循指令,又不死板苍白。τ的调整也提供了灵活的生成控制。

文本+第一帧
在这里插入图片描述

文本+第一帧+最后一帧

在这里插入图片描述

文本的重要性
在这里插入图片描述

τ的作用

如果没有这个参数,生成的视频会在给定的最后一帧指令中突然结束。

相比之下,加入这个参数会使生成的视频更加流畅、时间更加一致。

在这里插入图片描述

更多的应用

  • 草图指令
  • 视频编辑

这篇论文的PixelDance模型虽然主要是基于文本指令和图像指令进行视频生成,但文章最后还探索了使用简单的图像草图作为最后一帧指令的情况。

  1. 通过微调,PixelDance模型可以使用包含简单轮廓的草图图像作为最后一帧指令指导视频生成过程。
  2. 和真实图像类似,草图最后一帧提供的场景和主体信息,可以有效地指导模型合成逼真的视频内容。
  3. 尽管训练数据中不包含任何草图视频,但PixelDance展示了通过学习动力学和时序一致性的方法,可以在推理阶段实现零样本泛化到新的图像域(比如草图)。
  4. 这说明了图像指令通过提供先验场景和内容约束,可以引导模型学习到 Encoding-Generating 视频的本质动力学知识,这些知识适用于各类图像域,不仅限于训练数据中见过的。
  5. 总的来说,引入图像/草图指令为用户提供了强大的控制界面,通过简单的图像编辑就可以指导视频生成过程,实现比如零样本视频编辑等创意功能。

这是一个有趣的发现,未来视频生成或编辑系统可以更多地考虑与用户的主动交互,因为即使非专业人士提供的简易图像指令也可以产生惊人的效果。这也为创意视频内容的大规模生产提供了新的思路。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/180433.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

VBA技术资料MF87:创建固定顺序名称的一组文件夹

我给VBA的定义:VBA是个人小型自动化处理的有效工具。利用好了,可以大大提高自己的工作效率,而且可以提高数据的准确度。我的教程一共九套,分为初级、中级、高级三大部分。是对VBA的系统讲解,从简单的入门,到…

gRPC Java、Go、PHP使用例子

文章目录 1、Protocol Buffers定义接口1.1、编写接口服务1.2、Protobuf基础数据类型 2、服务器端实现2.1、生成gRPC服务类2.2、Java服务器端实现 3、java、go、php客户端实现3.1、Java客户端实现3.2、Go客户端实现3.3、PHP客户端实现 4、运行效果 本文例子是在Window平台测试&a…

Unity UGUI图片锯齿严重怎么解决

在开发的时候,发现图片锯齿严重,打包到移动端或者在编辑器都这样,如下图 原因: 查了一些资料,找到了原因如下:关于为什么会发生这种情况:看起来你的源资源比你在屏幕上显示的大小大得多。所以当…

深入浅出 Vue 中的插槽 slot

深入浅出 Vue 中的插槽 slot start 最近被问到好几次 Vue 中的插槽相关知识,掌握的还是有些不全面。抱着重新学习的心态,写这篇博客。首先对基础知识做一个回顾,然后再对源码实现做一个学习。作者:番茄编写时间:2023…

STM32_10(I2C)

I2C通信 I2C(Inter IC Bus)是由Philips公司开发的一种通用数据总线两根通信线:SCL(Serial Clock)、SDA(Serial Data)同步,半双工带数据应答支持总线挂载多设备(一主多从…

QAC支持的静态度量属性

上面介绍了Coverity支持的12个度量属性,下面我们看看QAC这款工具支持的度量属性。下面分成3类,函数度量、文件度量和类度量。 函数度量指标不多,一共有8个。 文件度量度量指标一共10个,如下表。 类度量指标一个8个,如…

python实现C++简易自动压行

突发奇想,想要将自己的c压行之后交上去。但是苦于手动压行效率太低,在网上搜索压行网站没有找到,突然发现压行不就是检查检查去个换行符吗。于是心血来潮,用python实现了一个简易压行程序。 首先,宏定义等带#的文件不…

正则表达式及文本三剑客grep,awk,sed

目录 正则表达式 前瞻 代表字符 表示次数 位置锚定 分组或其他 grep 选项 范例 awk 前瞻 awk常见的内置变量 范例 sed 前瞻 sed格式 范例 搜索替代 格式 范例 分组后项引用 格式 范例 正则表达式 前瞻 通配符:匹配的是文件名 正则表达式&a…

Windows10免安装PostgreSQL

1. PostgreSQL简介2. 下载3. 安装环境4. 安装 4.1. 初始化数据库4.2. 启动数据库4.3. 注册服务4.3. 卸载服务 1. PostgreSQL简介 PostgreSQL 是一种特性非常齐全的自由软件的对象-关系型数据库管理系统,是以加州大学计算机系开发的 POSTGRES 4.2版本为基础的对象关…

java开发需要掌握的maven相关知识和Junit单元测试

maven简介 什么是maven: maven是一款管理和构建java项目的工具,是apache旗下的一个开源项目。 maven的作用: 依赖管理: 方便快捷的管理项目依赖的资源(jar包)。 项目构建: 标准化的跨平台&#…

开发知识点-CSS样式

CSS样式 fontCSS 外边距 —— 围绕在元素边框的空白区域# linear-gradient() ——创建一个线性渐变的 "图像"# transform ——旋转 元素![在这里插入图片描述](https://img-blog.csdnimg.cn/20191204100321698.png)# rotate() [旋转] # 边框 (border) —— 围绕元素内…

计算机毕业设计php+bootstrap小区物业管理系统

意义:随着我国经济的发展和人们生活水平的提高,住宅小区已经成为人们居住的主流,人们生活质量提高的同时,对小区物业管理的要求也越来越高,诸如对小区的维修维护,甚至对各项投诉都要求小区管理者做得好&…

人工智能-优化算法之梯度下降

梯度下降 尽管梯度下降(gradient descent)很少直接用于深度学习, 但了解它是理解下一节随机梯度下降算法的关键。 例如,由于学习率过大,优化问题可能会发散,这种现象早已在梯度下降中出现。 同样地&#x…

《微信小程序开发从入门到实战》学习三十四

4.2 云开发JSON数据库 MySQL、Oracle之类的“关系型数据库”。JSON数据库是“非关系型数据库”,没有行表列的概念。 4.2.1 JSON数据库基本概念 集合:一个数据库有多个集合,一个集合存储通常是同一类数据,可看作为JSON数组,数组…

P25 C++ const关键字

前言 本期我们要讲的是 C 中的 const 关键字。 const 在改变生成代码方面做不了什么,它有点像类和结构体的可见性,这是一个机制,可以让我们的代码更加干净,并对开发人员写代码强制特定的规则。 const 就像你做出的承诺&#xf…

王者小游戏

游戏里的经验动物 Bear package beast; import sxt.GameFrame; public class Bear extends Beast {public Bear(int x, int y, GameFrame gameFrame) {super(x, y, gameFrame);setImg("C:\\Users\\辛欣\\OneDrive\\桌面\\王者荣耀图片(1)\\王者荣耀图片\\beast\\bear.jp…

MacBook如何远程控制华为手机?

将手机屏幕投影到电脑上可以提供更大的屏幕空间,方便观看电影、浏览照片、阅读文档等。然而,除了想将手机投屏到电脑,还想要在电脑上直接操作手机,有方法可以实现吗? 现在使用AirDroid Cast的远程控制手机功能就可以实…

【CVE-2023-49103】ownCloud graphapi信息泄露漏洞(2023年11月发布)

漏洞简介 ownCloud owncloud/graphapi 0.2.x在0.2.1之前和0.3.x在0.3.1之前存在漏洞。graphapi应用程序依赖于提供URL的第三方GetPhpInfo.php库。当访问此URL时,会显示PHP环境的配置详细信息(phpinfo)。此信息包括Web服务器的所有环境变量&a…

ArkTS-WebView内嵌H5页面

鸿蒙开发使用WebView内嵌H5页面 访问在线网页时需添加网络权限:ohos.permission.INTERNET module.json5文件配置 {"module" : {"requestPermissions":[{"name": "ohos.permission.INTERNET"}]} }踩坑日记 加载网页效果无法…

C# datagridview控件 绑定数据库中表中数据的方式-3

1.如下图所示,为数据库中的一张表结构,注意该表中共有11个字段 2.首先在窗体后台代码中拖入一个datagridview控件,并在窗体加载时,给datagridview控件添加列,添加的方式如下所示:请注意,每个列…