360发布FancyVideo:通过跨帧文本指导实现动态且一致的视频生成SOTA!

文章链接:https://arxiv.org/pdf/2408.08189
项目链接:https://360cvgroup.github.io/FancyVideo/

亮点直击

  • 本文介绍了FancyVideo,据众所知的首个探索T2V任务中跨帧文本指导的开创性尝试。该方法为增强当前的文本控制方法提供了新的视角。

  • 本文提出了跨帧文本指导模块(CTGM),该模块构建跨帧文本条件,并随后以强大的时间合理性引导潜在特征的建模。它可以有效地增强视频的运动性和一致性。

  • 本文证明了结合跨帧文本指导是一种实现高质量视频生成的有效方法。实验表明,该方法在定量和定性评估中均取得了最先进的结果。

合成动作丰富且时间一致的视频在人工智能领域仍然是一项挑战,尤其是在处理较长时间的视频时。现有的文本到视频(T2V)模型通常使用空间交叉注意力来实现文本控制,这等效于在没有针对特定帧的文本指导的情况下引导不同帧的生成。因此,模型理解提示中所传达的时间逻辑并生成具有连贯动作的视频的能力受到限制。

为了解决这一局限性,本文引入了FancyVideo,一种创新的视频生成器,它通过精心设计的跨帧文本指导模块(CTGM)改进了现有的文本控制机制。具体来说,CTGM在交叉注意力的开始、中间和结束分别加入了时间信息注入器(TII)、时间相关性精炼器(TAR)和时间特征增强器(TFB),以实现帧特定的文本指导。首先,TII将帧特定的信息从潜在特征中注入到文本条件中,从而获得跨帧文本条件。然后,TAR在时间维度上优化跨帧文本条件和潜在特征之间的相关矩阵。最后,TFB增强了潜在特征的时间一致性。大量的实验,包括定量和定性评估,证明了FancyVideo的有效性。本文的方法在EvalCrafter基准测试中实现了最先进的T2V生成结果,并促进了动态且一致的视频的合成。

方法

预备知识

潜在扩散模型:潜在扩散模型(LDMs)是一类高效的扩散模型,它将去噪过程转换到压缩的潜在空间中,而不是像素空间中。具体来说,LDMs使用VAE的编码器将图像压缩为潜在编码,并通过在潜在编码上执行正向和反向扩散过程来学习数据分布。它假设一个正向过程,逐渐将高斯噪声(ϵ ∼ N(0, I))引入潜在编码(z)中,得到:

其中,表示带有时间步长的噪声调度器。在反向过程中,它通过以下目标训练一个去噪模型():

其中,表示条件,目标可以是噪声ϵ、去噪输入或(ϵ)。本文采用预测作为监督。

零终端SNR噪声调度:先前的研究提出了零终端信噪比(SNR)来解决测试阶段和训练阶段之间的信噪比差异,这会影响生成质量。在训练过程中,由于噪声调度器残留的信号,SNR在终端时间步T时仍不为零。然而,在测试时,当从随机高斯噪声中进行采样时,采样器缺乏真实数据,导致SNR为零。这种训练-测试差异是不合理的,是生成高质量视频的障碍。因此,参考过往,研究者们扩大了噪声调度的范围,并设置来解决这个问题。

模型架构

下图3展示了FancyVideo的整体架构。该模型结构为伪3D UNet,它集成了源自文本到图像模型的冻结空间模块,以及跨帧文本指导模块(CTGM)和时间注意力块。模型接受三个特征作为输入:噪声潜在变量,其中和表示潜在变量的高度和宽度,表示帧数,表示潜在变量的通道数;mask 指示符,第一帧的元素设为1,其他帧设为0;图像指示符,第一帧为初始图像,其他帧设为0。去噪输入Z通过沿通道维度将Zn、M和I连接起来形成,表示为。在每个空间块中,CTGM被用来捕捉文本提示中描述的复杂动态。之后,应用时间注意力块来增强不同片段之间的时间关系。

跨帧文本指导模块

CTGM通过三个子模块改进了现有的文本控制方法:时间信息注入器(TII)、时间亲和力精炼器(TAR)和时间特征增强器(TFB),如图(III)所示。在进入交叉注意力之前,TII首先提取时间潜在特征,然后基于Zt将时间信息融入文本embedding 中,获得跨帧文本条件。随后,TAR沿时间轴精炼和之间的亲和力,增强文本指导的时间连贯性。最后,TFB进一步增强特征的时间连续性。CTGM的计算过程可以形式化为:

其中,、和分别表示原始交叉注意力中的查询、键和值的线性层。超参数从查询的维度中获得。TII(·,·)、TAR(·)和TFB(·)分别表示TII、TAR和TFB。最终,得到优化后的噪声潜在特征。以下是对这三个模块的详细描述。

时间信息注入器:在先前的工作中,文本embedding 被均匀地重复f次,结果得到,其中n表示embedding向量的长度。在执行空间交叉注意力之前,将时间信息注入到embedding中,从而使得在不同帧中对文本的关注点有所不同。在时间信息注入器(TII)中,首先将噪声潜在特征Z从调整为,并应用时间自注意力机制以获取。然后,使用重复的文本embedding 作为查询,噪声潜在特征作为键和值,进行空间交叉注意力,结果得到具有帧特定时间信息的文本embedding 。TII模块的形式化表达如下:

其中,表示时间自注意力,表示空间交叉注意力。通过TII,获得了具有时间信息的噪声潜在特征以及与潜在特征对齐的文本embedding 。

时间亲和力精炼器:为了动态分配文本embedding在不同帧中的注意力,研究者们设计了时间亲和力精炼器(TAR),以优化空间交叉注意力的注意力图。在空间交叉注意力中,噪声潜在特征作为查询,文本embedding同时作为键和值。注意力图的计算方式为,反映了文本与图像块之间的亲和力。随后,TAR对注意力图应用时间自注意力,获得精炼后的注意力图,其表示形式如下:

通过TAR,在亲和力矩阵中建立了更合理的时间连接。它可以执行更动态的动作,同时确保不会发生额外的视频失真。最后,交叉注意力过程以精炼后的注意力图完成,即。

时间特征增强器:为了进一步提升特征的时间一致性,通过时间特征增强器(TFB)处理。这能够建立更紧密的时间连接。具体来说,TFB包括一个简单但有效的时间自注意力层,以沿时间维度精炼噪声潜在特征,表示为:

实验

定量实验:在定量实验中,FancyVideo利用T2I基础模型生成作为第一帧的图像。在定性实验中,为了美学目的和去除水印,使用了一个外部模型来生成美丽的第一帧。

定性评估:研究者们选择了AnimateDiff、DynamiCrafter以及两个商业化产品,Pika和Gen2,进行综合定性分析。值得注意的是,在定量实验中,FancyVideo的第一帧由SDXL生成,以获得更具美学效果的结果并尽量减少水印的出现(尽管后续帧可能仍会显示水印)。如下图4所示,本文的方法展现了卓越的性能,在时间一致性和动作丰富性方面超过了先前的方法。相比之下,AnimateDiff、DynamiCrafter和Gen2生成的视频动作较少。Pika在生成物体一致性和高质量视频帧方面存在困难。值得注意的是,本文的方法能够准确理解文本提示中的动作指令(例如,“一只泰迪熊走路...美丽的日落”和“一只泰迪熊跑步...城市”的案例)。

定量评估:为了与最先进的方法进行全面比较,采用了三个流行的基准测试(例如,EvalCrafter、UCF-101和MSR-VTT以及人工评估来评估视频生成的质量。其中,EvalCrafter是目前相对全面的视频生成基准。UCF-101和MSR-VTT是先前方法中常用的基准。同时,人工评估可以弥补现有文本条件视频生成评估系统中的不准确性。

EvalCrafter基准测试:EvalCrafter从四个方面(包括视频质量、文本视频对齐、动作质量和时间一致性)定量评估文本到视频生成的质量。每个维度包含多个子类别的指标,如下表1所示。正如社区讨论中提到的,作者承认原始的综合指标计算方式是不适当的。为了更直观的比较,通过考虑每个子指标的数值规模和正负属性,引入了每个方面的综合指标。有关综合指标的详细信息可以在补充材料中找到。

具体来说,比较了先前视频生成SOTA方法的性能(例如,Pika、Gen2、Show-1、ModelScope、DynamiCrafter和AnimateDiff),并展示在上表1中。本文的方法在视频质量和文本视频对齐方面表现出色,超过了现有方法。尽管Show-1在动作质量方面表现最佳(81.56),但其视频质量较差(仅为85.08)。这表明它无法生成具有合理动作的高质量视频。然而,本文的方法在动作质量(72.99)方面排名第二,在视频质量(177.72)方面表现最佳,实现了质量与动作之间的权衡。以上结果表明FancyVideo的优越性及其生成时间一致和动作准确的视频的能力。

UCF-101 & MSR-VTT:根据先前的工作,研究者们在UCF-101和MSR-VTT上评估了零-shot生成性能,如下表2所示。使用Frechet视频距离(FVD)、Inception评分(IS)、Frechet Inception距离(FID)和CLIP相似度(CLIPSIM)作为评估指标,并与一些当前的SOTA方法进行了比较。FancyVideo取得了竞争力的结果,特别是在IS和CLIPSIM上表现优异,分别为43.66和0.3076。此外,先前的研究指出这些指标不能准确反映人类感知,并受到训练和测试数据分布之间差距以及图像低级细节的影响。

人工评估:受到EvalCrafter的启发,引入了一种多候选排名协议,涵盖四个方面:视频质量、文本视频对齐、动作质量和时间一致性。在该协议中,参与者对每个方面的多个候选模型的结果进行排名。每个候选模型根据其排名获得一个分数。例如,如果有N个候选模型按视频质量排名,第一个模型得到N−1分,第二个模型得到N−2分,以此类推,最后一个模型得到0分。遵循这一协议,从EvalCrafter验证集中选择了108个样本,并收集了100名个体的评判。如下图5所示,本文的方法在所有四个方面显著优于包括AnimateDiff、Pika和Gen2在内的文本到视频转换方法。FancyVideo展现了卓越的动作质量,同时保持了优越的文本视频一致性。此外,还对四种图像到视频的方法进行了类似的比较,包括DynamiCrafter、Pika和Gen2,如下图5所示。

消融研究:研究者们进行了实验并展示了在EvalCrafter上的视觉比较,以探讨CTGM中关键设计的效果。具体而言,消融组件包括三个核心模块(TII、TAR和TFB)。如下表3所示,TAR可以有效提升两个指标的性能,表明时间精炼注意力图操作对视频生成是有益的。持续插入TFB和TII进一步提升了生成器的性能,这归因于精炼的潜在特征和帧级个性化文本条件。同时,定性分析包含在附录中。

结论

本文提出了一种新的视频生成方法,名为FancyVideo,它通过跨帧文本指导优化了常见的文本控制机制(如空间交叉注意力)。它通过精心设计的跨帧文本指导模块(CTGM)改进了交叉注意力,实现了针对视频生成的时间特定文本条件指导。综合的定性和定量分析表明,该方法能够生成更具动态性和一致性的视频。随着帧数的增加,这一特点变得更加明显。本文的方法在EvalCrafter基准测试和人工评估中取得了最先进的结果。

参考文献

[1] FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance

更多精彩内容,请关注公众号:AI生成未来

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/877853.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

EmguCV学习笔记 VB.Net 6.5 凸包和凸缺陷

版权声明:本文为博主原创文章,转载请在显著位置标明本文出处以及作者网名,未经作者允许不得用于商业目的。 EmguCV是一个基于OpenCV的开源免费的跨平台计算机视觉库,它向C#和VB.NET开发者提供了OpenCV库的大部分功能。 教程VB.net版本请访问…

OpenCV c++ 实现图像马赛克效果

VS2022配置OpenCV环境 关于OpenCV在VS2022上配置的教程可以参考:VS2022 配置OpenCV开发环境详细教程 图像马赛克 图像马赛克(Image Mosaic)的原理基于将图像的特定区域替换为像素块,这些像素块可以是纯色或者平均色&#xff0c…

SpringMVC核心机制环境搭建

文章目录 1.SpringMVC执行流程1.基础流程图2.详细流程图 2.安装Tomcat1.下载2.解压到任意目录即可3.IDEA配置Tomcat1.配置Deloyment2.配置Server 3.创建maven项目1.创建sun-springmvc模块(webapp)2.查看是否被父模块管理3.pom.xml引入依赖4.目录5.SunDis…

【Redis】Redis数据结构——Hash 哈希

哈希 命令hsethgethexistshdelhkeyshvalshgetallhmgethlenhsetnxhincrbyhincrbyfloat命令小结 内部编码使用场景缓存⽅式对⽐ ⼏乎所有的主流编程语⾔都提供了哈希(hash)类型,它们的叫法可能是哈希、字典、关联数组、映射。在 Redis 中&#…

C语言函数介绍(上)

函数概念库函数标准库和头文件库函数的使用方法头文件包含库函数文档的一般格式 自定义函数函数的语法形式函数例子 形参和实参实参形参实参和形参的关系 return 语句数组做函数参数 函数概念 数学中我们其实就见过函数的概念,比如:一次函数 ykxb &…

【HuggingFace Transformers】BertModel源码解析

BertModel源码解析 1. BertModel 介绍2. BertModel 源码逐行注释 1. BertModel 介绍 BertModel 是 transformers 库中的核心模型之一,它实现了 BERT(Bidirectional Encoder Representations from Transformers)模型的架构。BERT 是基于 Trans…

UE5中制作箭头滑动转场

通过程序化的方式,可以制作一些特殊的转场效果,如箭头划过的转场: 1.制作思路 我们知道向量点积可以拿来做投影,因此可以把UV空间想象成向量坐标,绘制结果就是在某个向量上的投影: 绘制结果似乎是倾斜方…

去雾去雨算法

简单版 import cv2 import numpy as npdef dehaze(image):"""简单去雾算法,使用直方图均衡化来增强图像"""# 将图像转换为YUV颜色空间yuv_image cv2.cvtColor(image, cv2.COLOR_BGR2YUV)# 对Y通道(亮度)进行…

springsecurity 在web中如何获取用户信息(后端/前端)

一、SecurityContextHolder 是什么 SecurityContextHolder用来获取登录之后用户信息。Spring Security 会将登录用户数据保存在Session中。但是,为了使用方便,Spring Security在此基础上还做了一些改进,其中最主要的一个变化就是线程绑定。当用户登录成功…

4820道西医综合真题西医真题ACCESS\EXCEL数据库

本题库内容源自某出版物《西医综合真题考点还原与答案解析》,包含4千多道真题。这个数据库包含3个表,一个是分类表(SECTION_BEAN),一个是题库主表(QUESTION_INFO_BEAN),一个是选项表…

【网络】HTTP

在上一篇文章中,我们了解了 协议 的制定与使用流程,不过太过于简陋了,真正的 协议 会复杂得多,也强大得多,比如在网络中使用最为广泛的 HTTP/HTTPS 超文本传输协议 但凡是使用浏览器进行互联网冲浪,那必然…

【生物特征识别论文分享】基于深度学习的掌纹掌静脉识别

(待更新)基于深度学习的生物特征识别(手掌静脉、手背静脉、手指静脉、掌纹、人脸等)论文模型总结 。具体方法包括:基于特征表征、基于传统网络设计与优化、基于轻量级网络设计与优化、基于Transformer设计与优化、基于…

Leetcode 100.101.110.199 二叉树相同/对称/平衡 C++实现

Leetcode 100. 相同的树 问题:给你两棵二叉树的根节点 p 和 q ,编写一个函数来检验这两棵树是否相同。 如果两个树在结构上相同,并且节点具有相同的值,则认为它们是相同的。 /*** Definition for a binary tree node.* struct T…

Error: Can not import paddle core while this file exists

背景 因为工作需要,原来的项目部署的电脑被征用,重新换了一个新电脑,重装了系统,今天在给一个使用ocr的项目进行环境配置的时候发现,无论安装哪个版本的paddlepaddle,总是可以安装成功,但是导入…

开源接口自动化测试工具AutoMeter

AutoMeter是一款针对分布式服务和微服务API做功能和性能一体化的自动化测试平台。一站式提供项目管理,微服务,API接口,用例,环境管理,测试管理,前置条件,测试集合,变量管理&#xff…

kali安装

引言 Kali Linux 是一个基于 Debian 的 Linux 发行版,专门为渗透测试和安全审计而设计。它包含了大量的安全工具,如 Wireshark、Nmap、Metasploit 等,这些工具可以帮助安全专家和研究人员进行网络安全评估、漏洞检测和渗透测试。Kali Linux …

系统架构师(每日一练23)

每日一练 1.软件活动主要包括软件描述、()、软件有效性验证和(),()定义了软件功能及使用限制。答案与解析 问题1 A.软件模型 B.软件需求 C.软件分析 D.软件开发 问题2 A.软件分析 B.软件测试 C.软件演化 D.软件开发 问题3 A.软件分析 B.软件测试 C.软件描述 D.软…

进阶-5.锁

锁 1.概述2.全局锁3.表级锁3.1 介绍3.2 表锁3.3 元数据锁3.4意向锁 4.行级锁 1.概述 分类 按锁的粒度分类: 全局锁:锁住数据库中所有表表级锁:每次操作锁定整张表行级锁:每次操作锁定对应的行数据 2.全局锁 介绍 全局锁就是对…

第N11周:seq2seq翻译实战-Pytorch复现

任务: ●为解码器添加上注意力机制 一、前期准备工作 from __future__ import unicode_literals, print_function, division from io import open import unicodedata import string import re import randomimport torch import torch.nn as nn from torch impor…