StreamingT2V文本生成视频多模态大模型，即将开源！

StreamingT2V文本生成视频多模态大模型，即将开源！

news/2025/4/27 5:29:42/文章来源:https://blog.csdn.net/qq_45156060/article/details/137269337

1、前言

Picsart人工智能研究所、德克萨斯大学和SHI实验室的研究人员联合推出了StreamingT2V视频模型。通过文本就能直接生成2分钟、1分钟等不同时间，动作一致、连贯、没有卡顿的高质量视频。

虽然StreamingT2V在视频质量、多元化等还无法与Sora媲美，但在高速运动方面非常优秀，这为开发长视频模型提供了技术思路。

研究人员表示，理论上，StreamingT2V可以无限扩展视频的长度，并正在准备开源该视频模型。

论文地址：https://arxiv.org/abs/2403.14773

github地址：https://github.com/Picsart-AI-Research/StreamingT2V（即将开源）

2、介绍

传统视频模型一直受训练数据、算法等困扰，最多只能生成10秒视频。Sora的出现将文生视频领域带向了一个全新的高度，突破了诸多技术瓶颈，仅通过文本就能生成最多1分钟的视频。

而StreamingT2V采用了创新的自回归技术框架，通过条件注意力、外观保持和随机混合三大模块，极大的延长了视频的时间，同时保证动作的连贯性。

简单来说，StreamingT2V使用了一种“击鼓传花”的方法，每一个模块通过提取前一个视频块中的表示特征，来保证动作一致性、文本语义还原、视频完整性等。

2.1、条件注意力模块

条件注意力模块是一种“短期记忆”,通过注意力机制从前一个视频块中提取特征,并将其注入到当前视频块的生成中,实现了流畅自然的块间过渡,同时保留了高速运动特征。

先使用图像编码器对前一个视频块的最后几帧(例如20帧)进行逐帧编码,得到相应的特征表示，并将这些特征送入一个浅层编码器网络(初始化自主模型的编码器权重)进行进一步编码。

然后将提取到的特征表示注入到StreamingT2V的UNet的每个长程跳跃连接处，从而借助前一视频块的内容信息来生成新的视频帧,但不会受到先前结构、形状的影响。

2.2、外观保持模块

为了保证生成视频全局场景、外观的一致性，StreamingT2V使用了外观保持这种“长期记忆”方法。

外观保持从初始图像（锚定帧）中提取高级场景和对象特征，并将这些特征用于所有视频块的生成流程。这样做可以帮助在自回归过程中，保持对象和场景特征的连续性。

此外，现有方法通常只针对前一个视频块的最后一帧进行条件生成，忽视了自回归过程中的长期依赖性。通过使用外观保持，可以使用初始图像中的全局信息，从而更好地捕捉到自回归过程中的长期依赖性。

2.3、随机混合模块

前两个模块保证了StreamingT2V生成的视频大框架，但是在分辨率、质量方面还有欠缺，而随机混合模块主要用来增强视频的分辨率。

如果直接增强质量会耗费大量AI算力、时间，所以，随机混合采用了自回归增强的方法。

首先，研究人员将低分辨率视频划分为多个长度为24帧的视频块,这些块之间是有重叠的。然后,利用一个高分辨率的视频模型,对每一个视频块进行增强,得到对应的高分辨率视频块。

例如，有两个重叠的视频块A和B,重叠部分包含20帧。对于重叠部分的每一帧,随机混合模块会从A块和B块中各取出一帧,然后对这两帧进行加权平均,生成一个新的混合帧。通过这种方式,重叠部分的每一帧都是A块和B块对应帧的随机混合。

而对于不重叠的部分,随机混合模块则直接保留原始视频块中的帧。经过随机混合后的视频块就可以输入到高分辨率模型中进行增强。

研究人员指出，如果让相邻的两个视频块直接共享完全相同的重叠帧,会导致视频在过渡处出现不自然的冻结和重复效果。而随机混合模块通过生成新的混合帧,很好地规避了这个难题,使得块与块之间的过渡更加平滑自然。

实验数据显示, StreamingT2V生成的1分钟、2分钟长视频，不仅保持了高分辨率和清晰画质,整体的时间连贯性也得到了很大提升。视频中的物体运动姿态丰富，场景和物体随时间的演变更加自然流畅,没有突兀的断层或冻结情况出现。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/788376.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

npm配置项管理

npm配置项管理

全局模块路径配置修改配置项在使用Windows系统时，C盘告急一直被大家所诟病的问题，而nodejs的包管理工具npm默认将全局模块路径设置到了C盘。现要将npm全局模块路径设置到其他位置，减小C盘压力 npm config set prefix "E:\nodejs\no…

阅读更多...

【C++第二阶段】文件操作

【C++第二阶段】文件操作

以下内容仅为当前认识，可能有不足之处，欢迎讨论！ 文章目录文件操作文件写入流程简单的demo写操作文件读流程二进制写文件二进制读文件文件操作文件写入流程写文件包括以下几个步骤 1.包含头文件 2.创建流对象 3.打开文件&#xff0…

阅读更多...

大数据学习第十二天（hadoop概念）

大数据学习第十二天（hadoop概念）

1、服务器之间数据文件传递 1）服务器之间传递数据，依赖ssh协议 2）http协议是web网站之间的通讯协议，用户可已通过http网址访问到对应网站数据 3）ssh协议是服务器之间，或windos和服务器之间传递的数据的协议…

阅读更多...

IP SSL的应用与安装

IP SSL的应用与安装

IP SSL，即互联网协议安全套接字层，它是一种为网络通信提供安全及数据完整性的安全协议。在网络传输过程中，IP SSL可以对数据进行加密，这样即便数据在传输途中被截取，没有相应的解密密钥也无法解读内容。这一过程如同将…

阅读更多...

合并两个单链表

合并两个单链表

归纳编程学习的感悟， 记录奋斗路上的点滴， 希望能帮到一样刻苦的你！ 如有不足欢迎指正！ 共同学习交流！ 🌎欢迎各位→点赞 👍 收藏⭐ 留言📝 但行前路，不负韶华&#…

阅读更多...

redis的键值基本操作

redis的键值基本操作

设置数据首先设置键值对删除age，会得到nil，表示这个键已经被删除掉了判断age键还在不在查找所有键查找所有以me结尾的键删除所有键 redis的键和值都是二进制存储的，所以默认不支持中文。但是，我们重新登录客户端&#xff…

阅读更多...

Unity自定义框架（1）-----------单例模式

Unity自定义框架（1）-----------单例模式

前言： Unity作为一款强大的游戏开发引擎，其基础框架的设计对于项目的结构和性能有着重要的影响。其中，单例模式是一种常用的设计模式，用于确保一个类只有一个实例，并提供一个全局访问点。什么是单例模式&#xff1f…

阅读更多...

基于深度学习的机场航拍小目标检测系统（网页版+YOLOv8/v7/v6/v5代码+训练数据集）

基于深度学习的机场航拍小目标检测系统（网页版+YOLOv8/v7/v6/v5代码+训练数据集）

摘要：在本博客中介绍了基于YOLOv8/v7/v6/v5的机场航拍小目标检测系统。该系统的核心技术是采用YOLOv8，并整合了YOLOv7、YOLOv6、YOLOv5算法，从而进行性能指标的综合对比。我们详细介绍了国内外在机场航拍小目标检测领域的研究现状、数据集处理…

阅读更多...

分布式唯一ID 雪花算法

分布式唯一ID 雪花算法

📝个人主页：五敷有你 🔥系列专栏：算法分析与设计 ⛺️稳中求进，晒太阳算法具体介绍雪花算法是 64 位的二进制，一共包含了四部分： 1位是符号位，也就是最高位，…

阅读更多...

大数据实验一，Hadoop安装及使用

大数据实验一，Hadoop安装及使用

目录一．实验内容二．实验目的三．实验过程截图及说明 1、安装SSH，并配置SSH无密码登录 2、配置java环境 3.Hadoop的安装与配置 4、修改四个配置文件： 5、格式化HDFS的NameNode： 6、启动Hadoop 7、…

阅读更多...

如何使用极狐GitLab 启用自动备份功能

如何使用极狐GitLab 启用自动备份功能

本文作者：徐晓伟 GitLab 是一个全球知名的一体化 DevOps 平台，很多人都通过私有化部署 GitLab 来进行源代码托管。极狐GitLab 是 GitLab 在中国的发行版，专门为中国程序员服务。可以一键式部署极狐GitLab。本文主要讲述了如何极狐GitLab 自…

阅读更多...

探索Flutter混淆在提高应用安全性方面的作用

探索Flutter混淆在提高应用安全性方面的作用

在移动应用开发中，保护应用代码安全至关重要。Flutter 提供了简单易用的混淆工具，帮助开发者在构建 release 版本应用时有效保护代码。本文将介绍如何在 Flutter 应用中使用混淆，并提供了相关的操作步骤和注意事项。 📝 摘要本…

阅读更多...

四、Mybatis-查询与删除

四、Mybatis-查询与删除

文章目录 1.查询单条数据2.查询多条记录3.模糊查询4.批量删除 1.查询单条数据 <select id"getUserById" resultType"com.mybatis.Bean.User">select * from user where id 3;</select>返回对象可以是 …

阅读更多...

kuboard项目前端展示

kuboard项目前端展示

前端展示 https://www.wu123.com/v/#/k8s-manage/k8s-manage https://www.wu123.com/v/#/k8s-manage/k8s-install 部署kuboard 部署脚本 !/bin/bash #使用方法：sh create.ssh env_name port 例如sh create.sh sandbox 31080； #端口可以依次往后推&am…

阅读更多...

普通Java工程可执行JAR两种打包方式探讨

普通Java工程可执行JAR两种打包方式探讨

文章目录一、需求概述二、代码结构三、运行结果四、打包设置1. 一体化可执行包2. 带外部依赖lib的可执行包五、打包运行1. 源码放送2. 打包执行3. 打包结果一、需求概述普通Java工程 docker-show 实现了定时打印docker应用信息，现在需要将其打包成可执行Jar部署…

阅读更多...

Nginx三大常用功能“反向代理，负载均衡，动静分离”

Nginx三大常用功能“反向代理，负载均衡，动静分离”

注意：以下案例在Windows系统计算机作为宿主机，Linux CentOS 作为虚拟机的环境中实现一，Nginx配置实例-反向代理 1.反向代理案例一实现效果：使用nginx反向代理，访问 www.123.com 直接跳转到127.0.0.1:8080 准备工…

阅读更多...

视频基础学习四——视频编码基础一（冗余信息）

视频基础学习四——视频编码基础一（冗余信息）

文章目录前言一、编码压缩的原理1.空间冗余帧内预测 2.时间冗余帧间预测运动估计运动补偿 3.编码冗余4.视觉冗余二、压缩编码的流程1.编码器2.编解码流程总结前言上一篇文章介绍了视频帧率、码率、与分辨率。也介绍了为什么需要对视频进行压缩，因为720P、rgb2…

阅读更多...

计算机网络-HTTP相关知识-RSA和ECDHE及优化

计算机网络-HTTP相关知识-RSA和ECDHE及优化

HTTPS建立基本流程客户端向服务器索要并验证服务器的公钥。通过密钥交换算法（如RSA或ECDHE）协商会话秘钥，这个过程被称为“握手”。双方采用会话秘钥进行加密通信。 RSA流程 RSA流程包括四次握手： 第一次握手：客户…

阅读更多...

Flask学习（七）：pymysql链接数据库

Flask学习（七）：pymysql链接数据库

1、pymysql链接数据库相关参数： conn pymysql.connect(host127.0.0.1, port3306, userroot, passwordroot, dbsmbms) def __init__(self,*,userNone, password"", hostNone, databaseNone, unix_socketNone,port0,charset"",collationNone,sq…

阅读更多...

分布式锁的几种实现方式

分布式锁的几种实现方式

详解 Redis 分布式锁的 5 种方案-腾讯云开发者社区-腾讯云面试官：了解分布式锁？说说ZooKeeper分布式锁的实现原理_为什么说zookeepr是天然的分布式锁-CSDN博客面试官：了解分布式锁？说说ZooKeeper分布式锁的实现原理_为什么说zoo…

阅读更多...

最新文章