文本直接生成2分钟视频，即将开源模型StreamingT2V

文本直接生成2分钟视频，即将开源模型StreamingT2V

news/2025/4/13 7:48:42/文章来源:https://blog.csdn.net/weixin_57291105/article/details/137230102

Picsart人工智能研究所、德克萨斯大学和SHI实验室的研究人员联合推出了StreamingT2V视频模型。通过文本就能直接生成2分钟、1分钟等不同时间，动作一致、连贯、没有卡顿的高质量视频。

虽然StreamingT2V在视频质量、多元化等还无法与Sora媲美，但在高速运动方面非常优秀，这为开发长视频模型提供了技术思路。

研究人员表示，理论上，StreamingT2V可以无限扩展视频的长度，并正在准备开源该视频模型。

论文地址：https://arxiv.org/abs/2403.14773

github地址：https://github.com/Picsart-AI-Research/StreamingT2V（即将开源）

传统视频模型一直受训练数据、算法等困扰，最多只能生成10秒视频。Sora的出现将文生视频领域带向了一个全新的高度，突破了诸多技术瓶颈，仅通过文本就能生成最多1分钟的视频。

而StreamingT2V采用了创新的自回归技术框架，通过条件注意力、外观保持和随机混合三大模块，极大的延长了视频的时间，同时保证动作的连贯性。

简单来说，StreamingT2V使用了一种“击鼓传花”的方法，每一个模块通过提取前一个视频块中的表示特征，来保证动作一致性、文本语义还原、视频完整性等。

条件注意力模块

条件注意力模块是一种“短期记忆”,通过注意力机制从前一个视频块中提取特征,并将其注入到当前视频块的生成中,实现了流畅自然的块间过渡,同时保留了高速运动特征。

先使用图像编码器对前一个视频块的最后几帧(例如20帧)进行逐帧编码,得到相应的特征表示，并将这些特征送入一个浅层编码器网络(初始化自主模型的编码器权重)进行进一步编码。

然后将提取到的特征表示注入到StreamingT2V的UNet的每个长程跳跃连接处，从而借助前一视频块的内容信息来生成新的视频帧,但不会受到先前结构、形状的影响。

外观保持模块

为了保证生成视频全局场景、外观的一致性，StreamingT2V使用了外观保持这种“长期记忆”方法。

外观保持从初始图像（锚定帧）中提取高级场景和对象特征，并将这些特征用于所有视频块的生成流程。这样做可以帮助在自回归过程中，保持对象和场景特征的连续性。

此外，现有方法通常只针对前一个视频块的最后一帧进行条件生成，忽视了自回归过程中的长期依赖性。通过使用外观保持，可以使用初始图像中的全局信息，从而更好地捕捉到自回归过程中的长期依赖性。

随机混合模块

前两个模块保证了StreamingT2V生成的视频大框架，但是在分辨率、质量方面还有欠缺，而随机混合模块主要用来增强视频的分辨率。

如果直接增强质量会耗费大量AI算力、时间，所以，随机混合采用了自回归增强的方法。

首先，研究人员将低分辨率视频划分为多个长度为24帧的视频块,这些块之间是有重叠的。然后,利用一个高分辨率的视频模型,对每一个视频块进行增强,得到对应的高分辨率视频块。

例如，有两个重叠的视频块A和B,重叠部分包含20帧。对于重叠部分的每一帧,随机混合模块会从A块和B块中各取出一帧,然后对这两帧进行加权平均,生成一个新的混合帧。通过这种方式,重叠部分的每一帧都是A块和B块对应帧的随机混合。

而对于不重叠的部分,随机混合模块则直接保留原始视频块中的帧。经过随机混合后的视频块就可以输入到高分辨率模型中进行增强。

研究人员指出，如果让相邻的两个视频块直接共享完全相同的重叠帧,会导致视频在过渡处出现不自然的冻结和重复效果。而随机混合模块通过生成新的混合帧,很好地规避了这个难题,使得块与块之间的过渡更加平滑自然。

实验数据显示, StreamingT2V生成的1分钟、2分钟长视频，不仅保持了高分辨率和清晰画质,整体的时间连贯性也得到了很大提升。视频中的物体运动姿态丰富，场景和物体随时间的演变更加自然流畅,没有突兀的断层或冻结情况出现。

本文素材来源StreamingT2V论文，如有侵权请联系删除

END

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/786390.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【项目技术介绍篇】若依项目代码文件结构介绍

【项目技术介绍篇】若依项目代码文件结构介绍

作者介绍：本人笔名姑苏老陈，从事JAVA开发工作十多年了，带过大学刚毕业的实习生，也带过技术团队。最近有个朋友的表弟，马上要大学毕业了，想从事JAVA开发工作，但不知道从何处入手。于是&#xff0…

阅读更多...

深入剖析Xen与KVM虚拟化技术及其架构特点

深入剖析Xen与KVM虚拟化技术及其架构特点

引言在现代数据中心与云计算领域中，虚拟化技术已经成为提升资源利用率、增强灵活性与可扩展性的重要基石。其中，Xen与KVM作为两种备受瞩目的开源虚拟化解决方案，分别以其独特的设计理念与技术创新引领着行业的进步与发展。Xen源自剑桥大学的…

阅读更多...

SQLite全文搜索引擎：实现原理、应用实践和版本差异

SQLite全文搜索引擎：实现原理、应用实践和版本差异

文章目录一、实现原理1.1 倒排索引1.2 虚拟表二、应用在工程上的实施方法2.1 创建FTS虚拟表2.2 插入数据2.3 全文搜索2.4 关联普通表2.5 更新和删除数据2.6 优化FTS虚拟表2.7 小结三、FTS3、FTS4和FTS5的区别3.1 FTS33.2 FTS43.3 FTS53.4 小结四、更新SQLite的FTS版本的步骤…

阅读更多...

主键的创建、添加、删除操作

主键的创建、添加、删除操作

主键也是索引的一种主关键字(primary key)是表中的一个或多个字段，它的值用于唯一的标识表中的某一条记录。在两个表的关系中，主关键字用来在一个表中引用来自于另一个表中的特定记录。主关键字是一种唯一关键字，表定义的一部分。一个表的主…

阅读更多...

基于深度学习的停车场车辆检测算法matlab仿真

基于深度学习的停车场车辆检测算法matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览上图测试结果如下图所示： 2.算法运行软件版本 matlab2022a 3.部分核心程序 image imread(image_test\test.jpg); image2 image;%图…

阅读更多...

2022-04-10作业

2022-04-10作业

文章目录 BC131-kiki学程序设计基础BC123-小乐乐找最大数BC27-计算球体的体积BC25-计算体重指数 BC131-kiki学程序设计基础 BoBo老师教了KiKi学习程序设计基础，他知道C是带类的C语言，这个“”主要包含三部分内容：对C语言进行语法上的扩展、面…

阅读更多...

第21章-直连路由和静态路由

第21章-直连路由和静态路由

1. 直连路由 1）定义：指路由器接口直接相连的网段的路由； 2）特点： ① 不需要特别的配置，双UP(物理层数据链路层)； ② 在路由器的接口上配置IP地址即可； ③ 开机自动产生； …

阅读更多...

常用的设计模式（单例模式和工厂模式）

常用的设计模式（单例模式和工厂模式）

设计模式单例模式私有构造函数，防止外部直接实例化静态成员函数，返回唯一实例的引用静态局部变量，在程序生命周期内 #include<iostream> #include<map> using namespace std;class shoppingCartManager { public:// 获取购物…

阅读更多...

Scala第十六章节(泛型方法, 类, 特质的用法、泛型上下界、协变, 逆变, 非变的用法以及Scala列表去重排序案例)

Scala第十六章节(泛型方法, 类, 特质的用法、泛型上下界、协变, 逆变, 非变的用法以及Scala列表去重排序案例)

Scala第十六章节章节目标掌握泛型方法, 类, 特质的用法了解泛型上下界相关内容了解协变, 逆变, 非变的用法掌握列表去重排序案例 1. 泛型泛型的意思是泛指某种具体的数据类型, 在Scala中, 泛型用[数据类型]表示. 在实际开发中, 泛型一般是结合数组或者集合来使用的, 除此…

阅读更多...

C# 中 == 和 Equals 的区别

C# 中 == 和 Equals 的区别

在C#中， 和 Equals 都是用于比较两个对象是否相等的操作符或方法，但它们之间存在着显著的区别。这些区别主要体现在它们的操作级别、用途以及如何处理不同类型的对象比较上。 1. 操作级别和用途操作符： 是一个操作符，用于比较…

阅读更多...

vulhub中Apache solr XML 实体注入漏洞复现（CVE-2017-12629）

vulhub中Apache solr XML 实体注入漏洞复现（CVE-2017-12629）

Apache Solr 是一个开源的搜索服务器。Solr 使用 Java 语言开发，主要基于 HTTP 和 Apache Lucene 实现。原理大致是文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过 http收到一个XML/JSON响应来实现。此次7.1.0之前版本总共爆出两个漏洞：XML…

阅读更多...

Day13Day14_学点儿HTML_基本标签、div和span、table、form

Day13Day14_学点儿HTML_基本标签、div和span、table、form

1 基本标签 HTML：超文本标记语言定义页面结构 CSS： 层叠样式表页面显示的样式、排版 BootStrap JS： JavaScript 界面交互(动态交互、逻辑) JQuery <!--~ 适度编码益脑，沉迷编码伤身，合理安排时…

阅读更多...

SBCFormer：能够在单板计算机上以每秒1帧的速度进行全尺寸ImageNet分类的轻量级网络

SBCFormer：能够在单板计算机上以每秒1帧的速度进行全尺寸ImageNet分类的轻量级网络

摘要 https://arxiv.org/ftp/arxiv/papers/2311/2311.03747.pdf 计算机视觉在解决包括智能农业、渔业和畜牧业管理等不同领域的实际问题中变得越来越普遍。这些应用可能不需要每秒处理许多图像帧，因此从业者倾向于使用单板计算机（SBCs）。尽管…

阅读更多...

基于SpringBoot的“校园志愿者管理系统”的设计与实现（源码+数据库+文档+PPT)

基于SpringBoot的“校园志愿者管理系统”的设计与实现（源码+数据库+文档+PPT)

基于SpringBoot的“校园志愿者管理系统”的设计与实现（源码数据库文档PPT) 开发语言：Java 数据库：MySQL 技术：SpringBoot 工具：IDEA/Ecilpse、Navicat、Maven 系统展示系统总体结构图系统首页界面图志愿者注册…

阅读更多...

数据可视化高级技术(Echarts)

数据可视化高级技术(Echarts)

目录 （一）数据可视化概念及Echarts基础知识数据可视化的好处： 数据可视化的目标数据可视化的基本流程 （二）数据图表类别比较图表： 数据关系图表： 数据分布图表： 时间序列…

阅读更多...

Excel 隔几行批量插入空白行

Excel 隔几行批量插入空白行

例如如下表格，每隔6行插入一行数据： 1）第7个单元格输入1 2）选中6个单元格，然后双击填充数据： 3）F5 找到常量 Ctrlshift 复制插入的数据，然后选中数据按F5，定位到空值

阅读更多...

【Web】记录Polar靶场＜中等＞难度题一遍过(全)

【Web】记录Polar靶场＜中等＞难度题一遍过(全)

目录到底给不给flag呢写shell 注入某函数的复仇 xxe SSTI unpickle BlackMagic 反序列化找找shell 再来ping一波啊 wu 代码审计1 你的马呢？ ezphp 随机值 phpurl search file PlayGame csdn 反正持续一个月，感觉XYCTF…

阅读更多...

leetcode414－Third Maximum Number

leetcode414－Third Maximum Number

这道题目求第三大数，如果第三大数不存在则返回最大数，且该数字最大值不超过2^31-1。从这个提示上就可以看出这个数字是用int类型表示的。我们当然可以通过排序的方式先给数组排序然后很容易的就能求解。但是有没有什么更好的办法呢？对于数组来…

阅读更多...

「PHP系列」数组详解

「PHP系列」数组详解

文章目录一、PHP数组1. 数组的基本语法使用 array() 函数创建数组使用短数组语法创建数组 2. 访问数组元素3. 遍历数组4. 数组函数5. 多维数组6. 注意事项二、常见问题1. 如何检查数组是否为空？2. 如何合并两个数组？3. 如何获取数组中的最后一个元素&a…

阅读更多...

c#中DocFx生成API帮助文档

c#中DocFx生成API帮助文档

安装docfx dotnet tool update -g docfx加载环境变量 export PATH"$PATH:/Users/xx/.dotnet/tools"初始化文档目录 docfx init修改配置docfx.json,src指向源码目录 "metadata": [{"src": [{"src": "../xx/","files…

阅读更多...

最新文章