FIFO-Diffusion,一个无需额外训练即可生成长视频的框架。通过确保每个帧引用足够多的先前帧来生成高质量、一致的长视频。

简单来讲,FIFO-Diffusion先通过一些模型如VideoCraft2、zeroscope、Opem-Sora Plan等与FIFO-Diffusion的组合生成短视频,然后取结尾的帧(也可以取多帧),再用这一帧的图片生成另一段短视频,然后拼接起来。FIFO-Diffusion对如何取帧、生成新视频的时候引用往前的多少帧,以及如何去噪加噪做了算法优化。

相关链接

论文:arxiv.org/abs/2405.11473

项目:jjihwan.github.io/projects/FIFO-Diffusion

代码:github.com/jjihwan/FIFO-Diffusion_public

论文阅读

FIFO-Diffusion:无需训练即可从文本生成无限视频

摘要

我们提出了一种基于预训练扩散模型的新颖推理技术,用于文本条件视频生成。我们的方法称为 FIFO-Diffusion,从概念上讲,无需训练即可生成无限长的视频。这是通过迭代执行对角去噪来实现的,该去噪同时处理队列中噪声级别不断增加的一系列连续帧;

我们的方法在头部将完全去噪的帧出队,同时在尾部将新的随机噪声帧入队。然而,对角去噪是一把双刃剑,因为靠近尾部的帧可以通过前向参考利用更干净的帧,但这种策略会导致训练和推理之间的差异。因此,我们引入潜在分区来减少训练与推理之间的差距,并引入前向降噪来利用前向引用的优势。

我们已经在现有的文本到视频生成基线上展示了所提出的方法的有希望的结果和有效性。

方法

f = 4对角去噪示意图。被实线包围的框架是 被虚线包围的帧是模型输入的去噪版本。去噪后 当随机噪声进入队列时,右上角完全去噪的实例被退出队列。

长视频生成的分块自回归方法与FIFO-Diffusion方法的比较。随机噪声(黑色)被迭代去噪到图像中模型的潜势(白色)。红色的盒子指出预训练中的去噪网络基本模型,绿框表示通过额外训练得到的预测网络。

上图为f = 4, n = 2时的潜在分区和前向去噪示意图。

  • (a)潜在分区将扩散过程划分为n个部分,以减少最大噪声水平差异。

  • (b)在(a)上lookahead denoings使所有框架都能用足够数量的以前框架来代替所有帧,而计算的计算是(a)的两倍。

实验

基于(a) Open-Sora计划的FIFO-Diffusion生成的长视频插图。(b) VideoCrafter2,(c)基于VideoCrafter2的多个提示。电话上的号码每个帧的左上角表示帧索引。

(a)森林里宁静的冬日景色。森林被一层厚厚的雪覆盖着,这……”

(b)“一个充满活力的水下场景,一个潜水者探索沉船,2K,逼真的。”

(c)“一只老虎在草原上行走→站立→休息,逼真,4k,高清”

“一个漂浮在太空中的宇航员,高质量,4K分辨率。”

不同基线结果比较

VideoCrafter2

视频生成的FIFO扩散与VideoCrafter2。左上角的数字每一帧表示帧索引。

VideoCrafter1

视频生成的FIFO扩散与VideoCrafter1。左上角的数字 每一帧表示帧索引。

zeroscope

用zeroscope的FIFO扩散产生的视频。

Open-Sora Plan

使用Open-Sora计划的fifo扩散生成的视频。

长视频生成方法比较

与其他长视频生成技术,Gen-L-Video, FreeNoise和LaVie SEINE。

(一)“一个充满活力的水下场景,一个潜水者探索沉船,2K,逼真的。”

(二)“宁静禅宗花园的全景,高品质,4K分辨率。”

结论

我们介绍了一种新颖的推理算法,即FIFO扩散,该算法允许从文本中生成无限长的视频,而无需在短视频片段上预测的视频扩散模型。 我们的方法是通过进行对角线降解来实现的,后者以第一次出局的方式处理潜在的噪声水平的增加。

在每一步中,一个完全去噪的实例被去排队,而一个新的随机实例被去排队噪音是排队的。虽然对角去噪具有关键的权衡,但我们提出了潜在分区克服其固有的局限性,前瞻性去噪,发挥其优势。 把它们结合在一起,FIFO-Diffusion成功地生成了高质量的长视频,展示了上下文一致性的精彩的场景和动态运动表达。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/14644.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux命令日常使用思考

linux命令日常使用思考 复制的相关问题scp和cp的区别root192.168.5.229-r的理解 更新版本的相关问题svn info 根目录和家目录的区别根目录家目录 复制的相关问题 scp和cp的区别 安全性:SCP 是基于 SSH 的加密传输协议,可以保证数据在传输过程中的安全性…

vue期末复习选择题1

1. 下面哪一项描述是错误的?(B) A.$("ul li:gt(5):not(:last)")选取ul标记里面索引值大于5且不是最后一个的li元素B.$("div").find("span")选取div元素的子元素spanC.$("div.showmore > a")选取…

Axure RP 9 for Mac/win:重新定义交互原型设计的未来

在当今数字化时代,交互原型设计已成为产品开发中不可或缺的一环。Axure RP 9作为一款功能强大的交互原型设计软件,凭借其出色的性能和用户友好的界面,赢得了广大设计师的青睐。 Axure RP 9不仅支持Mac和Windows两大主流操作系统,…

Excel实现将A列和B列的内容组合到一个新的列(例如C列)中,其中A列的每个值都与B列的所有值组合。

利用Excel中vba代码宏实现 原始数据: 自动生成后数据: vba实现代码: Sub CombineColumns()Dim ws As WorksheetDim lastRowA As Long, lastRowB As Long, i As Long, j As LongDim MyIndex As IntegerDim strCombine As String, strColA As…

【Python】 去除字符串中的所有空白字符

基本原理 在Python中,字符串(String)是不可变的数据类型,这意味着一旦创建了一个字符串,就不能修改它的内容。然而,我们可以创建一个新的字符串,它包含原始字符串中的字符,但不包含…

局域网传文件怎么操作?轻松实现文件共享!

在现代的办公和生活中,局域网传文件已经成为一种非常常见和方便的方式,可以快速、安全地在局域网内进行文件传输。无需依赖互联网,局域网传文件可以帮助团队成员之间共享文件、备份数据、进行协作等。本文将介绍三种常见的方法,帮…

MySQL——存储过程,触发器

BaiduComate: # 问题1: # 问题1: 帮我创建两个表student与score表,要求student表有id,createDate,userName,phone,age,sex,introduce, 要求score表有id&…

Vue3实战Easy云盘(四):使用空间+文件预览+文件分享+文件下载

一、空间使用 Framework.vue中 (1)引入接口 const api {getUseSpace: "/getUseSpace",logout: "/logout", }; (2)回调 // 使用空间 const useSpaceInfo ref({ useSpace: 0, totalSpace: 1 }); const g…

unreal engine 5.0.3 创建游戏项目

根据虚幻官网介绍,虚幻引擎5可免费用于创建线性内容、定制项目和内部项目。你可以免费用它开发游戏,只有当你的产品营收超过100万美元时,才收取5%的分成费用。所以目前国内也有许多游戏厂商在使用UE制作游戏。UE5源码也已开源,有U…

[数据集][目标检测]吸烟检测数据集VOC+YOLO格式1449张1类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):1449 标注数量(xml文件个数):1449 标注数量(txt文件个数):1449 标注…

huggingface笔记:LLama 2

1 前提tip 1.1 使用什么数据类型训练模型? Llama2模型是使用bfloat16训练的 上传到Hub的检查点使用torch_dtype float16,这将通过AutoModel API将检查点从torch.float32转换为torch.float16。在线权重的数据类型通常无关紧要,这是因为模型…

机器学习300问】95、什么是KNN算法?它和K-means什么关系?

一、KNN算法的定义 KNN(K-Nearest Neighbors)算法,是一种简单而有效的监督学习方法。它既可以用在分类任务,也可用在回归任务中。KNN算法的核心思想:在特征空间中,如果有一个数据点周围的大多数邻居属于某个…

5. JVM面试题汇总

Java全栈面试题汇总目录-CSDN博客 1. 说一下JVM的主要组成部分及其作用? JVM包含两个子系统和两个组件,两个子系统为Class loader(类装载)、Execution engine(执行引擎);两个组件为Runtime data area(运行时数据区)、Native Interface(本地接口)。 Cl…

linux mail命令及其历史

一、【问题描述】 最近隔壁组有人把crontab删了,crontab这个命令有点反人类,它的参数特别容易误操作: crontab - 是删除计划表 crontab -e 是编辑,总之就是特别容易输入错误。 好在可以通过mail命令找回,但是mai…

【计算机网络】初识Tcp协议

💻文章目录 📄前言Tcp基础概念Tcp 的报文格式三次握手四次挥手 Tcp的滑动窗口机制概念超时重传机制高速重传 TCP传输控制机制流量控制拥堵控制慢启动 Tcp的性能优化机制延迟应答捎带应答 📓总结 📄前言 TCP三次握手、四次挥手&…

Java刷题总结(面试)

1、String类 String不可变 java 中String是 immutable的,也就是不可变,一旦初始化,其引用指向的内容是不可变的。 也就是说,String str “aa”;str“bb”;第二句不是改变“aa”所存储地址的内容&#xf…

Overleaf是什么?如何升级到标准版OR专业版?

1. Overleaf介绍 Overleaf是一个使用LaTeX进行多人协同编辑的平台,可以免费注册和使用,不用下载LaTeX软件,是最为著名的LaTeX在线协作系统。 主要特色是有LaTeX插件,编辑功能十分完善,有实时预览(即编即看…

Java 使用继承和重写父类方法写一个商品入库案例

package 练习.商品入库;import java.util.Scanner; // 抽象手机类 public abstract class Phone {//测试方法public static void main(String[] args){// 华为手机huawei h new huawei();h.setName("华为P40");h.setPrice(1999.99);h.setConfiguration("8128GB…

【排名公布】绵阳男科医院排名发布,绵阳高水男科医院究竟咋样啊?

【排名公布】绵阳男科医院排名发布,绵阳高水男科医院究竟咋样啊? 绵阳高水医院,是一家医保定点单位,地址位于绵阳市涪城区长虹大道北段113号。一所与国际接轨的现代化男子医院,有良好地就医环境,拥有多名有经验的专家…

基于Tensorflow实现了三个模型对MNIST数据集的识别

欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。 文章目录 一项目简介 二、功能三、系统四. 总结 一项目简介 一、项目背景与意义 MNIST手写数字数据集是计算机视觉和机器学习领域的一个经典数据集,常用于评估图像…