【字节跳动AI论文】Seaweed-7B:视频生成基础模型的高成本效益培训

摘要:本技术报告介绍了一种经济有效的视频生成基础模型训练策略。 我们提出了一种中等规模的研究模型,大约有70亿个参数(7B),称为Seaweed-7B,使用665,000个H100 GPU小时从头开始训练。 尽管使用适度的计算资源进行训练,但与更大规模的当代视频生成模型相比,Seaweed-7B 表现出极具竞争力的性能。 在资源有限的环境中,设计选择尤为重要。 本技术报告重点介绍了提高中型扩散模型性能的关键设计决策。 根据经验,我们观察到两点:(1)Seaweed-7B的性能可与在大量GPU资源上训练的大型模型相媲美,甚至超过它们;(2)我们的模型具有很强的泛化能力,可以通过轻量级微调或继续训练,有效地适应各种下游应用。 请访问项目页面Seaweed。Huggingface链接:Paper page,论文链接:2504.08685

研究背景和目的

研究背景

随着数字娱乐、通信和现实世界模拟中视频作为主导媒介的中心地位日益凸显,视频生成模型的研究成为了一个引人注目的领域。视频生成模型的基础性研究对于提升一系列下游视频应用的性能具有重要意义,如图像动画、视频编辑和视频叙事等。近年来,视频生成模型取得了快速进展,多种训练方法被提出,如MovieGen、Cosmos和Wan-2.1等。这些方法普遍采用扩散变换器(Diffusion Transformers,DiT),并遵循着扩大模型规模和GPU资源以提高性能的趋势。然而,这种扩展策略带来了巨大的训练成本,例如MovieGen使用了6000多个NVIDIA H100 GPU。这种高昂的训练成本严重阻碍了视频生成模型的创新和发展。

在自然语言处理、视觉语言模型和音频基础模型等领域,研究人员已经发现,通过架构改进和优化训练策略,小到中型模型可以在基准测试中超越大型语言模型(LLMs)。例如,Mistral7B在多个基准测试中超过了Llama2-13B,DeepSeek v3证明了使用370亿参数的激活模型可以超越720亿和4200亿参数的密集模型,而只需一小部分GPU资源。这些成果启发我们探索视频生成领域中的类似效率提升。

研究目的

本研究旨在提出一种经济高效的视频生成基础模型训练策略。我们训练了一个中等规模的模型,称为Seaweed-7B(简称Seed Video),它包含大约70亿个参数的扩散变换器。通过使用665,000个H100 GPU小时(相当于在1000个H100 GPU上训练27.7天)进行从头开始训练,我们旨在展示在资源有限的环境下,通过精心设计的数据处理、模型架构和训练策略,中型模型也能实现与大型模型相媲美甚至超越的性能。此外,我们还希望验证Seaweed-7B作为视频生成基础模型的潜力,即其能否支持广泛的下游应用。

研究方法

数据处理

在资源受限的计算环境中,数据质量和多样性比数量更为重要。我们构建了一个可扩展的基础设施来大规模处理视频数据,并使用各种数据处理器来有效扫描高质量视频数据。我们的数据管道从多种来源收集视频数据,并通过时间分割、空间裁剪、质量过滤、多方面数据平衡、视频去重和视频标注等步骤来转化为高质量的训练数据。特别是,我们通过混合分辨率训练来提高模型对高分辨率和长持续时间视频的重建质量。

模型架构

Seaweed-7B由变分自编码器(VAE)和潜在扩散变换器(DiT)组成。我们采用了具有因果3D卷积编码器和解码器的VAE架构,该架构能够统一图像和视频编码,并支持任意长视频的编码和解码。在DiT方面,我们采用了双流结构,并通过使用SwiGLU激活函数、AdaSingle时步调制和共享更深层FFN参数来优化参数效率和减少内存成本。此外,我们还探索了不同的注意力机制,包括全注意力、空间全注意力和窗口注意力,以平衡训练可扩展性和计算成本。

训练策略

我们采用了从低分辨率到高分辨率的多阶段训练策略。在预训练阶段,我们首先使用低分辨率图像进行训练,以建立文本提示与常见视觉概念之间的对齐。然后,我们启动联合图像和视频训练,其中图像和视频令牌在每个批次中以固定比例混合。在后训练阶段,我们应用监督微调(SFT)和来自人类反馈的强化学习(RLHF)来进一步提高输出视频的美学质量、运动一致性和结构连贯性。

优化技术

为了提高训练效率,我们采用了多种优化技术,包括并行性策略、运行时平衡策略、多级激活检查点(MLAC)和融合CUDA内核。这些技术共同作用,使得Seaweed-7B在分布式训练中的模型浮点运算利用率(MFU)达到38%。

研究结果

定量分析

我们在文本到视频和图像到视频生成任务上评估了Seaweed-7B的性能。通过使用MagicArena平台的人类评估,我们发现Seaweed-7B在图像到视频任务中的Elo评分排名第二,仅次于Kling1.6(HD),但超越了包括Sora、Wan-2.1和HunyuanVideo在内的多个大型模型。在文本到视频任务中,Seaweed-7B也位列前2-3名,性能与Veo 2.0相当,并优于Wan-2.1和Kling1.6(HD)。这些结果表明,尽管使用有限的计算资源进行训练,Seaweed-7B仍然表现出与大型模型相媲美甚至超越的性能。

定性分析

我们还对Seaweed-7B在各种下游应用中的表现进行了定性分析,包括图像到视频生成、人类视频生成、主题一致的视频生成、视频音频联合生成、长视频生成和叙事、实时生成、超分辨率生成和相机控制生成等。结果表明,Seaweed-7B能够支持广泛的下游应用,并通过轻量级微调或继续训练有效适应这些应用。

推理效率

与Wan-2.1模型相比,我们的模型在推理效率方面表现出色。在单个H100 GPU上,Seaweed-7B的推理时间仅为29.6秒,而Wan-2.1则需要1837.9秒。这表明我们的模型不仅在生成质量上具有竞争力,而且在推理速度上也具有显著优势。

VAE重建质量

我们的VAE模型在重建质量方面也表现出色。与最先进的VAE模型相比,我们的模型在rFVD、LPIPS、PSNR和SSIM等指标上均取得了优异的成绩。特别是对于高分辨率和长持续时间的真实世界视频,我们的模型实现了最低的LPIPS值。

研究局限

尽管Seaweed-7B在多个方面表现出色,但其仍存在一些局限性。首先,与大型模型相比,Seaweed-7B在生成精细细节(如小面孔或精细图案)方面仍有提升空间。这可能是由于计算资源有限导致的。其次,尽管我们采取了多种措施来提高模型的安全性和公平性,但确保负责任的视频生成仍然是一个重要的研究领域。未来需要更多努力来增强视频生成中的安全性、公平性和伦理考虑。

未来研究方向

提升模型性能

未来的研究可以进一步探索如何通过改进模型架构、训练策略和优化技术来提升Seaweed-7B的性能。特别是,可以尝试引入更先进的注意力机制和生成对抗网络(GAN)技术来提高生成视频的质量和多样性。

扩展应用场景

随着视频生成技术的不断发展,我们可以期待Seaweed-7B在更多应用场景中发挥重要作用。例如,在虚拟现实(VR)和增强现实(AR)领域,Seaweed-7B可以生成逼真的虚拟环境和交互内容;在电影和游戏制作中,它可以用于快速生成场景和角色动画;在社交媒体和短视频平台中,它可以用于自动生成高质量的视频内容。

增强安全性和公平性

为了确保视频生成技术的负责任使用,未来的研究应重点关注如何增强模型的安全性和公平性。这包括开发更先进的过滤和检测技术来识别和移除有害内容、探索如何确保生成内容的多样性和包容性以及制定相关政策和法规来规范视频生成技术的使用。

降低训练成本

尽管本研究已经展示了一种经济高效的视频生成基础模型训练策略,但未来的研究仍可以进一步探索如何降低训练成本。例如,可以尝试使用更高效的计算硬件和分布式训练技术来减少训练时间和成本;同时,也可以探索如何通过知识蒸馏和迁移学习等方法来利用预训练模型的知识来加速新模型的训练过程。

综上所述,本研究提出了一种经济高效的视频生成基础模型训练策略,并展示了Seaweed-7B模型在多个方面的出色表现。尽管存在一些局限性,但本研究为视频生成领域的发展提供了新的思路和方法,并为未来的研究指明了方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/901489.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java单例模式:实现全局唯一对象的艺术

精心整理了最新的面试资料和简历模板,有需要的可以自行获取 点击前往百度网盘获取 点击前往夸克网盘获取 一、什么是单例模式? 单例模式(Singleton Pattern)是一种创建型设计模式,确保一个类只有一个实例&#xff0c…

Oracle 复制表结构(含索引、主键)操作指南

Oracle 复制表结构(含索引、主键)操作指南 1. 复制基础表结构 -- 创建空表结构(不复制数据) CREATE TABLE new_table AS SELECT * FROM old_table WHERE 10;2. 复制主键约束 -- 查询原表主键信息 SELECT constraint_name, co…

React 更新state中的对象

更新 state 中的对象 state 中可以保存任意类型的 JavaScript 值,包括对象。但是,你不应该直接修改存放在 React state 中的对象。相反,当你想要更新一个对象时,你需要创建一个新的对象(或者将其拷贝一份)…

基于 GoFrame 框架的电子邮件发送实践:优势、特色与经验分享

1. 引言 如果你是一位有1-2年Go开发经验的后端开发者,可能已经熟悉了Go语言在性能和并发上的天然优势,也曾在项目中遇到过邮件发送的需求——无论是用户注册时的激活邮件、系统异常时的通知,还是营销活动中的批量促销邮件,邮件功…

AndroidStudio编译报错 Duplicate class kotlin

具体的编译报错信息如下: Duplicate class kotlin.collections.jdk8.CollectionsJDK8Kt found in modules kotlin-stdlib-1.8.10 (org.jetbrains.kotlin:kotlin-stdlib:1.8.10) and kotlin-stdlib-jdk8-1.6.21 (org.jetbrains.kotlin:kotlin-stdlib-jdk8:1.6.21) D…

后端面试问题收集以及答案精简版

思路 不要问什么答什么 要学会扩充 比如问你go map的原理 map 是什么 数据结构,字典,k/v 结构map的应用场景有哪些 快速查找、计数器、配置管理、去重、缓存实现map有哪些限制 无序性、非线程安全的读写map的key的访问 v: mp[key] v,ok : mp[key] for…

MicroPython 开发ESP32应用教程 之 I2S、INMP441音频录制、MAX98357A音频播放、SD卡读写

本课程我们讲解Micropython for ESP32 的i2s及其应用,比如INMP441音频录制、MAX98357A音频播放等,还有SD卡的读写。 一、硬件准备 1、支持micropython的ESP32S3开发板 2、INMP441数字全向麦克风模块 3、MAX98357A音频播放模块 4、SD卡模块 5、面包板及…

UE5 物理模拟 与 触发检测

文章目录 碰撞条件开启模拟关闭模拟 多层级的MeshUE的BUG 触发触发条件 碰撞 条件 1必须有网格体组件 2网格体组件必须有网格,没有网格虽然可以开启物理模拟,但是不会有任何效果 注意开启的模拟的网格体组件会计算自己和所有子网格的mesh范围 3只有网格…

微信小程序 - swiper轮播图

官方文档&#xff1a;https://developers.weixin.qq.com/miniprogram/dev/component/swiper.html <swiper indicator-color"ivory" indicator-active-color"#d43c33" indicator-dots autoplay><swiper-item><image src"/images/banner…

深入探究C#官方MCP:开启AI集成新时代

一、引言 在当今数字化时代&#xff0c;.NET 开发领域不断演进&#xff0c;而 C# 官方 MCP&#xff08;Model Context Protocol&#xff0c;模型上下文协议&#xff09;的出现&#xff0c;无疑为开发者们带来了全新的机遇与挑战。随着人工智能技术的迅猛发展&#xff0c;将 AI…

二分查找法

使用二分查找法的前提&#xff1a;&#xff08;1&#xff09;数组为有序数组. &#xff08;2&#xff09;数组中无重复元素. 二分的两种写法&#xff1a; 方法一&#xff1a;[left&#xff0c;right] class Solution { public:int search(vector<int>& nums, int …

HarmonyOS:页面滚动时标题悬浮、背景渐变

一、需求场景 进入到app首页或者分页列表首页时&#xff0c;随着页面滚动&#xff0c;分类tab要求固定悬浮在顶部。进入到app首页、者分页列表首页、商品详情页时&#xff0c;页面滚动时&#xff0c;顶部导航栏&#xff08;菜单、标题&#xff09;背景渐变。 二、相关技术知识点…

鲲鹏+昇腾部署集群管理软件GPUStack,两台服务器搭建双节点集群【实战详细踩坑篇】

前期说明 配置&#xff1a;2台鲲鹏32C2 2Atlas300I duo&#xff0c;之前看网上文档&#xff0c;目前GPUstack只支持910B芯片&#xff0c;想尝试一下能不能310P也部署试试&#xff0c;毕竟华为的集群软件要收费。 系统&#xff1a;openEuler22.03-LTS 驱动&#xff1a;24.1.rc…

React中 点击事件写法 的注意(this、箭头函数)

目录 ‌1、错误写法‌&#xff1a;onClick{this.acceptAlls()} ‌2、正确写法‌&#xff1a;onClick{this.acceptAlls}&#xff08;不带括号&#xff09; 总结 方案1&#xff1a;构造函数绑定 方案2&#xff1a;箭头函数包装方法&#xff08;更简洁&#xff09; 方案3&am…

【路由交换方向IE认证】BGP选路原则之Weight属性

文章目录 一、路由器BGP路由的处理过程控制平面和转发平面选路工具 二、BGP的选路顺序选路的前提选路顺序 三、Wight属性选路原则规则9与规则11的潜移默化使用Weight值进行选路直接更改Weight值进行选路配合使用route-map进行选路 四、BGP邻居建立配置 一、路由器BGP路由的处理…

Missashe考研日记-day20

Missashe考研日记-day20 1 高数 学习时间&#xff1a;2h30min学习内容&#xff1a; 今天当然是刷题啦&#xff0c;做不等式的证明板块的真题&#xff0c;证明题懂的都懂&#xff0c;难起来是真的一点思路都没有&#xff0c;这个板块还没做完&#xff0c;做完再总结题型。 2…

了解JVM

一.JVM概述 1.JVM的作用 把字节码编译为机器码去执行,负责把字节码装载到虚拟机中 现在的 JVM 不仅可以执行 java 字节码文件,还可以执行其他语言编译后的字节码文件,是一个跨语言平台 2.JVM的组成部分 类加载器&#xff08;ClassLoader&#xff09;运行时数据区&#x…

LeetCode LCR157 套餐内商品的排列顺序

生成字符串的全部排列&#xff08;去重&#xff09;&#xff1a;从问题到解决方案的完整解析 问题背景 在编程和算法设计中&#xff0c;生成字符串的所有排列是一个经典问题。它不仅出现在算法竞赛中&#xff0c;也在实际开发中有着广泛的应用&#xff0c;比如生成所有可能的…

pgsql:关联查询union(并集)、except(差集)、intersect(交集)

pgsql:关联查询union(并集)、except(差集)、intersect(交集)_pgsql except-CSDN博客

微信小程序中使用ECharts 并且动态设置数据

项目下载地址 GitHub 地址 https://github.com/ecomfe/echarts-for-weixin 将当前文件夹里的内容拷贝到项目中 目录&#xff1a; json: {"usingComponents": {"ec-canvas": "../components/ec-canvas/ec-canvas"} }wxml&#xff1a; <ec…