文本生成高清、连贯视频,谷歌推出时空扩散模型

谷歌研究人员推出了创新性文本生成视频模型——Lumiere。

与传统模型不同的是,Lumiere采用了一种时空扩散(Space-time)U-Net架构,可以在单次推理中生成整个视频的所有时间段,能明显增强生成视频的动作连贯性,并大幅度提升时间的一致性。

此外,Lumiere为了解决空间超分辨率级联模块,在整个视频的内存需求过大的难题,使用了Multidiffusion方法,同时可以对生成的视频质量、连贯性进行优化。

论文地址:https://arxiv.org/abs/2401.12945?ref=maginative.com

时空扩散U-Net架构

传统的U-Net是一种常用于图像分割任务的卷积神经网络架构,其特点是具有对称的编码器-解码器,能够在多个层次上捕获上下文信息,并且能够精确地定位图像中的对象。

而时空扩散U-Net是在时空维度上执行下采样和上采样操作,以便在紧凑的时空表示中生成视频

图片

下采样的目的是减小特征图的尺寸,同时增加特征图的通道数,以捕捉更丰富的特征。

上采样则是通过插值以及将特征图的尺寸恢复到原始输入的大小,同时减少通道数,以生成更细节的输出。

时空扩散U-Net的编码器部分通过卷积和池化操作实现时空下采样。卷积层用于提取特征,并逐渐减小特征图的尺寸。

图片

池化层则通过降采样操作减小特征图的空间尺寸,同时保留重要的特征信息。通过逐步堆叠这些下采样模块,编码器可以逐渐提取出更高级别的抽象特征。

因此,Lumiere在时空扩散U-Net架构帮助下,能够一次生成80帧、16帧/秒(相当于5秒钟)的视频。并且与传统方法相比,这种架构显著增强了生成视频运动的整体连贯性。

Multidiffusion优化方法

Multidiffusion核心技术是通过在时间窗口内进行空间超分辨率计算,并将结果整合为整个视频段的全局连贯解决方案。

具体来说,Multidiffusion通过将视频序列分割成多个时间窗口,每个时间窗口内进行空间超分辨率计算

图片

这样做的好处是,在每个时间窗口内进行计算可以减少内存需求,因为每个时间窗口的大小相对较小。同时,这种分割的方式也使得计算更加高效,并且能够更好地处理长视频序列。

图片

在每个时间窗口内,Multidiffusion方法使用已经生成的低分辨率视频作为输入,通过空间超分辨率级联模块生成高分辨率的视频帧

然后,通过引入扩散算法,将每个时间窗口的结果进行整合,形成整个视频段的全局连贯解决方案。

这种整合过程考虑了时间窗口之间的关联性,保证了视频生成的连贯性和视觉一致性。

本文素材来源Lumiere论文,如有侵权请联系删除

END

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/658238.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

挑选合适的板式家具生产线:满足加工需求的要素解析

板式家具生产线是现代家具制造业中不可或缺的重要工具。然而,选择一条适合自身加工需求的板式家具生产线并不容易,需要考虑多方面因素。本文将深入探讨如何挑选合适的板式家具生产线,从而让读者更好地理解生产线的特点和选择要点。 一、需求分…

nginx+nginx-rtmp-module+ffmpeg进行局域网推流rtmp\m3u8

局域网推流的简单方式 这里以ubuntu为例 一、先下载安装包 nginx、nginx-rtmp-module,再一起安装 # 下载nginx # 这里我安装的是 nginx-1.10.3 版本 cd /usr/software wget http://nginx.org/download/nginx-1.25.0.tar.gz tar -zxvf nginx-1.25.0.tar.gz# 下载ng…

Prometheus---图形化界面grafana(二进制)

前言 Prometheus是一个开源的监控以及报警系统。整合zabbix的功能,系统,网络,设备。 proetheus可以兼容网络,设备。容器的监控。告警系统。因为他和k8s是一个项目基金开发的产品,天生匹配k8s的原生系统。容器化和云原…

详解OpenHarmony各部分文件在XR806上的编译顺序

大家好,今天我们来谈一谈编程时一个很有趣的话题——编译顺序。我知道,一提到编译可能大家会感到有点儿头疼,但请放心,我不会让大家头疼的。我们要明白,在开始写代码之前,了解整个程序的编译路径是十分有必…

Linux进程间通信(IPC)机制之一:共享内存

🎬慕斯主页:修仙—别有洞天 ♈️今日夜电波:Nonsense—Sabrina Carpenter 0:50━━━━━━️💟──────── 2:43 🔄 ◀️ ⏸ ▶️ …

智能小程序事件系统——SJS响应事件实现方案

背景信息 如有频繁用户交互,在小程序上表现是比较卡顿的。例如,页面有 2 个元素 A 和 B,用户在 A 上做 touchmove 手势,要求 B 也跟随移动,movable-view 就是一个典型的例子。一次 touchmove 事件的响应过程为&#x…

可以举一反三的动态规划问题(最短编辑问题)

给定两个字符串 A 和 B,现在要将 A经过若干操作变为 B,可进行的操作有: 删除–将字符串 A 中的某个字符删除。插入–在字符串 A 的某个位置插入某个字符。替换–将字符串 A 中的某个字符替换为另一个字符。 现在请你求出,将 A 变…

第9章 安全漏洞、威胁和对策(9.1-9.2)

9.1 共担责任(shared responsibility) 共担责任是安全设计的原则,表明任何机构都不是孤立运行的。 相反,它们与世界有着千丝万缕的联系。我们使用相同的基本技术,遵循相同的通信协议规范,在同一个互联网上漫游,共用操…

Shell脚本——免交互

目录 一、Here Document免交互 1、免交互概述 2、语法格式 2.1示例:免交互方式实现对行数的统计,将要统计的内容置于标记EOF之间,直接将内容传给wc-l来统计 3、变量设定 ①变量图换成实际值 ②整行内容作为变量并输出结果 ③使输出内…

基于深度学习的鸟类识别系统matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1 卷积神经网络基础 4.2 GoogLeNet模型 4.3 鸟类识别系统 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 ............................…

STM32 IIC电量计LTC2944

1 描述 LTC2944 可在便携式产品应用中测量电池充电状态、电池电压、电池电流及其自身温度。宽输入电压范围允许使用高达 60V 的多节电池。精密库仑反向积分电流通过电池正极端子与负载或充电器之间的检测电阻器。 电压、电流和温度由内部 14 位无延迟 ΔΣ™ ADC 测量。测量结…

Linux:理解信号量以及内核中的三种通信方式

文章目录 共享内存的通信速度消息队列msggetmsgsndmsgrcvmsgctl 信号量semgetsemctl 内核看待ipc资源单独设计的模块ipc资源的维护 理解信号量总结 本篇主要是基于共享内存,延伸出对于消息队列和信号量,再从内核的角度去看这三个模块实现进程间通信 共享…

【教学类-44-04】20240130 print dashed(虚线字体)制作的数字描字帖

作品展示:背景需求: 制作绿色数字的数字描字帖 选用字体:print dashed(虚线字体) 【教学类-44-03】20240111阿拉伯数字字帖的字体(三)——德彪钢笔行书(实线字体)和pri…

如何使用Docker部署JSON Crack

文章目录 1. 在Linux上使用Docker安装JSONCrack2. 安装Cpolar内网穿透工具3. 配置JSON Crack界面公网地址4. 远程访问 JSONCrack 界面5. 固定 JSONCrack公网地址 JSON Crack 是一款免费的开源数据可视化应用程序,能够将 JSON、YAML、XML、CSV 等数据格式可视化为交互…

Kafka运维相关知识

目录 一、基本概念 二、技术特性 三、设计思想 四、运维建议 一、基本概念 Apache kafka 是一个分布式的基于push-subscribe的消息系统,它具备快速、可扩展、可持久化的特点。它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于h…

Mysql基础篇笔记

数据表 链接:https://pan.baidu.com/s/1dPitBSxLznogqsbfwmih2Q 提取码:b0rp --来自百度网盘超级会员V5的分享 sql的执行顺序 根据顺序 也就是说 select后面的字段别名 只能在order by中使用 mysql不支持sql92的外连接 mysql不支持满外连接 可以…

java反射常用方法

反射思维导图 使用案例 package Reflection.Work.WorkTest01;import java.lang.reflect.Constructor; import java.lang.reflect.Field; import java.lang.reflect.InvocationTargetException; import java.lang.reflect.Method; import java.util.Arrays;public class WorkDe…

10-Nacos-灰度发布配置

用于生产上线后,针对指定主机IP做定向测试 1、在配置编辑中,勾选Beta发布,在文本框中勾选需要下发服务的IP地址,多个用英文逗号分隔。 正式版:这个是针对除了Beta版中指定的IP服务生效Beta版:灰度配置&am…

粤Z车牌申请需要什么条件?

深圳湾口岸: 上一年度纳税数额达到15万元以上的,可以申办1个商务车指标 上一年度的纳税数额达到50万元以上的,可以申办第2个商务车指标; 上一年度的纳税数额达到100万元以上的,可以申办第3个商务车指标; 从申办第4个商务车指标起,…

yolov8:pt 转 onnx

yolov8官方教程 1.安装包 我使用的是虚拟环境,yolov8包已经下载到本地了,因此直接在anaconda prompt 命令行继续安装 首先激活自己的虚拟环境,然后执行安装命令 pip install ultralytics yolov8中没有requirement.txt文件,直接…