文本生成高清、连贯视频,谷歌推出时空扩散模型

谷歌研究人员推出了创新性文本生成视频模型——Lumiere。

与传统模型不同的是,Lumiere采用了一种时空扩散(Space-time)U-Net架构,可以在单次推理中生成整个视频的所有时间段,能明显增强生成视频的动作连贯性,并大幅度提升时间的一致性。

此外,Lumiere为了解决空间超分辨率级联模块,在整个视频的内存需求过大的难题,使用了Multidiffusion方法,同时可以对生成的视频质量、连贯性进行优化。

论文地址:https://arxiv.org/abs/2401.12945?ref=maginative.com

时空扩散U-Net架构

传统的U-Net是一种常用于图像分割任务的卷积神经网络架构,其特点是具有对称的编码器-解码器,能够在多个层次上捕获上下文信息,并且能够精确地定位图像中的对象。

而时空扩散U-Net是在时空维度上执行下采样和上采样操作,以便在紧凑的时空表示中生成视频

图片

下采样的目的是减小特征图的尺寸,同时增加特征图的通道数,以捕捉更丰富的特征。

上采样则是通过插值以及将特征图的尺寸恢复到原始输入的大小,同时减少通道数,以生成更细节的输出。

时空扩散U-Net的编码器部分通过卷积和池化操作实现时空下采样。卷积层用于提取特征,并逐渐减小特征图的尺寸。

图片

池化层则通过降采样操作减小特征图的空间尺寸,同时保留重要的特征信息。通过逐步堆叠这些下采样模块,编码器可以逐渐提取出更高级别的抽象特征。

因此,Lumiere在时空扩散U-Net架构帮助下,能够一次生成80帧、16帧/秒(相当于5秒钟)的视频。并且与传统方法相比,这种架构显著增强了生成视频运动的整体连贯性。

Multidiffusion优化方法

Multidiffusion核心技术是通过在时间窗口内进行空间超分辨率计算,并将结果整合为整个视频段的全局连贯解决方案。

具体来说,Multidiffusion通过将视频序列分割成多个时间窗口,每个时间窗口内进行空间超分辨率计算

图片

这样做的好处是,在每个时间窗口内进行计算可以减少内存需求,因为每个时间窗口的大小相对较小。同时,这种分割的方式也使得计算更加高效,并且能够更好地处理长视频序列。

图片

在每个时间窗口内,Multidiffusion方法使用已经生成的低分辨率视频作为输入,通过空间超分辨率级联模块生成高分辨率的视频帧

然后,通过引入扩散算法,将每个时间窗口的结果进行整合,形成整个视频段的全局连贯解决方案。

这种整合过程考虑了时间窗口之间的关联性,保证了视频生成的连贯性和视觉一致性。

本文素材来源Lumiere论文,如有侵权请联系删除

END

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/658238.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PandaWallet :Web3.0世界的入口

如果说互联网的普及和发展造就了移动支付,那么Web3的到来则书写了加密支付的新篇章,并将加密钱包的发展推向新高潮。 传统电子钱包的功能是储存资产与移动支付。加密钱包在储存资产与移动支付的基础上,增加了身份标识的功能。这也是Web3中用户…

挑选合适的板式家具生产线:满足加工需求的要素解析

板式家具生产线是现代家具制造业中不可或缺的重要工具。然而,选择一条适合自身加工需求的板式家具生产线并不容易,需要考虑多方面因素。本文将深入探讨如何挑选合适的板式家具生产线,从而让读者更好地理解生产线的特点和选择要点。 一、需求分…

nginx+nginx-rtmp-module+ffmpeg进行局域网推流rtmp\m3u8

局域网推流的简单方式 这里以ubuntu为例 一、先下载安装包 nginx、nginx-rtmp-module,再一起安装 # 下载nginx # 这里我安装的是 nginx-1.10.3 版本 cd /usr/software wget http://nginx.org/download/nginx-1.25.0.tar.gz tar -zxvf nginx-1.25.0.tar.gz# 下载ng…

Prometheus---图形化界面grafana(二进制)

前言 Prometheus是一个开源的监控以及报警系统。整合zabbix的功能,系统,网络,设备。 proetheus可以兼容网络,设备。容器的监控。告警系统。因为他和k8s是一个项目基金开发的产品,天生匹配k8s的原生系统。容器化和云原…

详解OpenHarmony各部分文件在XR806上的编译顺序

大家好,今天我们来谈一谈编程时一个很有趣的话题——编译顺序。我知道,一提到编译可能大家会感到有点儿头疼,但请放心,我不会让大家头疼的。我们要明白,在开始写代码之前,了解整个程序的编译路径是十分有必…

Linux进程间通信(IPC)机制之一:共享内存

🎬慕斯主页:修仙—别有洞天 ♈️今日夜电波:Nonsense—Sabrina Carpenter 0:50━━━━━━️💟──────── 2:43 🔄 ◀️ ⏸ ▶️ …

智能小程序事件系统——SJS响应事件实现方案

背景信息 如有频繁用户交互,在小程序上表现是比较卡顿的。例如,页面有 2 个元素 A 和 B,用户在 A 上做 touchmove 手势,要求 B 也跟随移动,movable-view 就是一个典型的例子。一次 touchmove 事件的响应过程为&#x…

可以举一反三的动态规划问题(最短编辑问题)

给定两个字符串 A 和 B,现在要将 A经过若干操作变为 B,可进行的操作有: 删除–将字符串 A 中的某个字符删除。插入–在字符串 A 的某个位置插入某个字符。替换–将字符串 A 中的某个字符替换为另一个字符。 现在请你求出,将 A 变…

第9章 安全漏洞、威胁和对策(9.1-9.2)

9.1 共担责任(shared responsibility) 共担责任是安全设计的原则,表明任何机构都不是孤立运行的。 相反,它们与世界有着千丝万缕的联系。我们使用相同的基本技术,遵循相同的通信协议规范,在同一个互联网上漫游,共用操…

Shell脚本——免交互

目录 一、Here Document免交互 1、免交互概述 2、语法格式 2.1示例:免交互方式实现对行数的统计,将要统计的内容置于标记EOF之间,直接将内容传给wc-l来统计 3、变量设定 ①变量图换成实际值 ②整行内容作为变量并输出结果 ③使输出内…

基于深度学习的鸟类识别系统matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1 卷积神经网络基础 4.2 GoogLeNet模型 4.3 鸟类识别系统 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 ............................…

【手写数据库toadb】toadb物理存储模型,数据库物理存储原理,物理文件组织关系以及行列混合模型存储结构

存储模型概述 ​专栏内容: 手写数据库toadb 本专栏主要介绍如何从零开发,开发的步骤,以及开发过程中的涉及的原理,遇到的问题等,让大家能跟上并且可以一起开发,让每个需要的人成为参与者。 本专栏会定期更新,对应的代码也会定期更新,每个阶段的代码会打上tag,方便阶段…

Modern C++ std::shared_ptr线程安全吗(一)

通过《Modern C std::shared_ptr的实现原理》我们看到引用计数和weak计数在链接pthread的情况下都是原子操作,而不链接的情况必是单线程也没有竞争存在。 可以看到shared_ptr本身只读的情况下是线程安全的,但是有两种情况不怎么安全: 通过它…

STM32 IIC电量计LTC2944

1 描述 LTC2944 可在便携式产品应用中测量电池充电状态、电池电压、电池电流及其自身温度。宽输入电压范围允许使用高达 60V 的多节电池。精密库仑反向积分电流通过电池正极端子与负载或充电器之间的检测电阻器。 电压、电流和温度由内部 14 位无延迟 ΔΣ™ ADC 测量。测量结…

MySQL原理(四)索引(2)存储结构

前面提到,mysql按索引存储结构划分,主要有四种类型的索引:B-Tree索引、Hash索引、Full-text索引、R-Tree索引。 一、B-Tree索引 BTREE索引就是一种将索引值按一定的算法,存入一个树形的数据结构中(二叉树&#xff09…

Linux:理解信号量以及内核中的三种通信方式

文章目录 共享内存的通信速度消息队列msggetmsgsndmsgrcvmsgctl 信号量semgetsemctl 内核看待ipc资源单独设计的模块ipc资源的维护 理解信号量总结 本篇主要是基于共享内存,延伸出对于消息队列和信号量,再从内核的角度去看这三个模块实现进程间通信 共享…

【教学类-44-04】20240130 print dashed(虚线字体)制作的数字描字帖

作品展示:背景需求: 制作绿色数字的数字描字帖 选用字体:print dashed(虚线字体) 【教学类-44-03】20240111阿拉伯数字字帖的字体(三)——德彪钢笔行书(实线字体)和pri…

如何使用Docker部署JSON Crack

文章目录 1. 在Linux上使用Docker安装JSONCrack2. 安装Cpolar内网穿透工具3. 配置JSON Crack界面公网地址4. 远程访问 JSONCrack 界面5. 固定 JSONCrack公网地址 JSON Crack 是一款免费的开源数据可视化应用程序,能够将 JSON、YAML、XML、CSV 等数据格式可视化为交互…

Kafka运维相关知识

目录 一、基本概念 二、技术特性 三、设计思想 四、运维建议 一、基本概念 Apache kafka 是一个分布式的基于push-subscribe的消息系统,它具备快速、可扩展、可持久化的特点。它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于h…

unity - 保存camera组件图像

My project(1) “CameraImage” public class CameraImage : MonoBehaviour {// 拍摄的相机对象public Camera captureCamera ;public void CaptureScreenshot(){// 图片保存根目录string dataPath "D:/A/B";// 图片文件夹中对应的本项目文件夹string productname…