Stable Video文本生成视频公测地址——Scaling Latent Video Diffusion Models to Large Datasets

近期,Stability AI发布了首个开放视频模型——"Stable Video",该创新工具能够将文本和图像输入转化为生动的场景,将概念转换成动态影像,生成出电影级别的作品,旨在满足广泛的视频应用需求,包括媒体、娱乐、教育和营销等领域。"Stable Video"提供了两种图像到视频的模型,能够生成14帧和25帧的视频,用户还可以自行设置帧率,范围在3到30帧每秒之间。该模型适用于多种视频应用任务,包括从单一图像进行多视角合成,以及在多视角数据集上进行微调。

Stable Video Diffusion模型是一种先进的文本到视频和图像到视频生成模型,专为高分辨率视频设计。研究者通过三个阶段的训练过程,强调了预训练数据集的重要性,并提出了一种系统化的数据策划方法来培养一个强大的基础模型。该模型不仅为多视图合成提供了强有力的运动和多视角先验,还能够微调成多视图扩散模型,以高效的方式生成对象的多个视角。

此外,通过特定的运动提示和LoRA模块的训练,模型能够实现显式运动控制。研究者们通过策划工作流程,将大型视频集合转化为高质量的数据集,并训练出了超越先前所有模型的尖端文生视频和图生视频模型。他们的方法在减少数据集大小、提高分辨率和视频帧数方面表现出色,并在与其他顶尖模型的比较中证明了其有效性。总而言之,这一方法有效地分离了运动和内容,在多视图合成方面取得了显著成果。其主要步骤如下:

  1. 数据处理与标注:首先提出了一个大型视频数据集(LVD),包含580M个标注过的视频剪辑对,使用三种不同的合成字幕方法对每个片段进行注释,而通过进一步研究发现,现有数据集中含有可能降低最终视频模型性能的样本,如运动量少、文本过多或审美价值低的视频。因此,作者以2FPS进行计算,并通过删除任何平均光流幅度低于某一阈值的视频来过滤掉静态场景。

  2. 图像预训练:讨论了图像预训练作为视频模型训练流程中的第一个阶段。作者将图像预训练(image pretraining)作为视频模型训练流程的第一个阶段。他们在初始模型上使用了一个预训练的图像扩散模型——即Stable Diffusion 2.1——以为模型提供强大的视觉表现力

  3. 策划视频预训练数据集:作者提出了一个两阶段的视频预训练数据集策划流程。第一阶段涉及图像预训练,其中利用了空间布局初始化自预训练图像模型的视频模型,并展示了在预训练大型且多样化的数据集,然后在较小但质量更高的数据集上进行微调的效果提升。第二阶段关注于策划适合预训练的视频数据集。作者通过计算光流(optical flow)来过滤掉不需要的样本以创建一个更适宜的预训练数据集

  4. 高质量视频微调:这一阶段的目的是在一个高质量、高分辨率的视频子集上对模型进行精细化调整。在前两个阶段(图像预训练和视频预训练)的基础上,通过进一步的高质量微调来提升最终模型的性能。在第三阶段期间,插入时间卷积和注意力层,这些是在每个空间卷积和注意力层之后添加的,与仅训练时间层的工作或完全基于LLM(大型语言模型)的方法形成对比。

Stability AI还发布了"Stable Video Diffusion"的代码,其github仓库地址为:https://github.com/nateraw/stable-diffusion-videos,可以进入仓库使用colab一键体验。另外Stable Video Diffusion官网已经全面开放使用,可以直接进入官网https://www.stablevideo.com/,点击start with text。

输入对应的prompt如:A tranquil, realistic depiction of a sunset over calm ocean waters, with the sky ablaze in vibrant oranges and reds, reflecting softly on the water's surface,然后选择比例和风格,点击Generate即可开始生成视频。

图像和视频的生成已成为目前人工智能最火热的应用,而掌握良好的提示工程基础已经成为提高工作效率、优化系统设计和提供良好用户体验的重要前提之一。无论是对于从事信息技术相关工作的专业人士,还是对于对提示技术感兴趣的初学者,我推荐学习一下《提示工程基础》这门课程、课程将介绍提示工程的基本知识,然后逐步过渡到高级提示技术。您还将学习如何防止提示误用,以及如何在与基础模型 (FM, Foundation Model) 互动时减少偏差。

课程链接:https://study.163.com/course/introduction.htm?from=AWS-social-FY24-KOC-HJS

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/716303.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

STM32 DMA入门指导

什么是DMA DMA,全称直接存储器访问(Direct Memory Access),是一种允许硬件子系统直接读写系统内存的技术,无需中央处理单元(CPU)的介入。下面是DMA的工作原理概述: 数据传输触发&am…

解决Java并发问题的常见思路

写在文章开头 近期对一些比较老的项目进行代码走查,碰到一些极端的并发编程恶习,所以笔者就基于此文演示这类问题以及面对并发编程时我们应该需要了解一些常见套路。 Hi,我是sharkChili,是个不断在硬核技术上作死的java coder&am…

基于 Amazon EKS 的 Stable Diffusion ComfyUI 部署方案

01 背景介绍 Stable Diffusion 作为当下最流行的开源 AI 图像生成模型在游戏行业有着广泛的应用实践,无论是 ToC 面向玩家的游戏社区场景,还是 ToB 面向游戏工作室的美术制作场景,都可以发挥很大的价值,如何更好地使用 Stable Dif…

scanf和cin的利弊

scanf和cin的利弊: scanf: 利:耗时短,写法方便输入固定格式,比如scanf(“%*d%d”,&a),可以直接忽略第一个输入,不用创建新对象,再比如scanf(“%1d”,&x[i]),输入3214&#x…

卡牌——二分

卡牌 题目分析 想一下前面题的特点,是不是都出现了“最大边长”,“最小的数”这种字眼,那么这里出现了“最多能凑出多少套牌”,我们可以考虑用二分。接下来我们要看一下他是否符合二段性,二分的关键在于二段性。 第…

续Java的执行语句、方法--学习JavaEE的day07

day07 一、特殊的流程控制语句 break(day06) continue 1.理解: 作用于循环中,表示跳过循环体剩余的部分,进入到下一次循环 做实验: while(true){ System.out.println(“111”); System.out.println(“222”); if(true){ conti…

编译链接实战(25)gcc ASAN、MSAN检测内存越界、泄露、使用未初始化内存等内存相关错误

文章目录 1 ASAN1.1 介绍1.2 原理编译时插桩模块运行时库2 检测示例2.1 内存越界2.2 内存泄露内存泄露检测原理作用域外访问2.3 使用已经释放的内存2.4 将漏洞信息输出文件3 MSAN1 ASAN 1.1 介绍 -fsanitize=address是一个编译器选项,用于启用AddressSanitizer(地址

基于SpringBoot的教师考勤管理系统(赠源码)

作者主页:易学蔚来-技术互助文末获取源码 简介:Java领域优质创作者 Java项目、简历模板、学习资料、面试题库 教师考勤管理系统是基于JavaVueSpringBootMySQL实现的,包含了管理员、学生、教师三类用户。该系统实现了班级管理、课程安排、考勤…

基于springboot的足球俱乐部管理系统的设计与实现

** 🍅点赞收藏关注 → 私信领取本源代码、数据库🍅 本人在Java毕业设计领域有多年的经验,陆续会更新更多优质的Java实战项目希望你能有所收获,少走一些弯路。🍅关注我不迷路🍅** 一 、设计说明 1.1 课题…

2024.3.3每日一题

LeetCode 用队列实现栈 题目链接:225. 用队列实现栈 - 力扣(LeetCode) 题目描述 请你仅使用两个队列实现一个后入先出(LIFO)的栈,并支持普通栈的全部四种操作(push、top、pop 和 empty&…

如何取消ChatGPT 4.0的自动续费和会员订阅(chatgpt4.0自動續費嗎)

如何取消ChatGPT 4.0的自动续费和会员订阅 ChatGPT 4.0自动续费是否存在 是的,ChatGPT 4.0 Plus会员服务存在自动续费功能。 ChatGPT 4.0 Plus会员服务自动续费 ChatGPT Plus会员服务的自动续费机制用户在购买ChatGPT 4.0 Plus会员服务后,系统会自动…

npm ERR! code ERESOLVE

1、问题概述? 执行npm install命令的时候报错如下: tangxiaochuntangxiaochundeMacBook-Pro stf % npm install npm ERR! code ERESOLVE npm ERR! ERESOLVE unable to resolve dependency tree npm ERR! npm ERR! While resol…

LeetCode102.二叉树的层序遍历

题目 给你二叉树的根节点 root ,返回其节点值的 层序遍历 。 (即逐层地,从左到右访问所有节点)。 示例 输入:root [3,9,20,null,null,15,7] 输出:[[3],[9,20],[15,7]]输入:root [1] 输出&am…

SpringCloud-MQ消息队列

一、消息队列介绍 MQ (MessageQueue) ,中文是消息队列,字面来看就是存放消息的队列。也就是事件驱动架构中的Broker。消息队列是一种基于生产者-消费者模型的通信方式,通过在消息队列中存放和传递消息,实现了不同组件、服务或系统…

2024全新手机软件下载应用排行、平台和最新发布网站,采用响应式织梦模板

这是一款简洁蓝色的手机软件下载应用排行、平台和最新发布网站,采用响应式织梦模板。 主要包括主页、APP列表页、APP详情介绍页、新闻资讯列表、新闻详情页、关于我们等模块页面。 地 址 : runruncode.com/php/19703.html 软件程序演示图:…

最小高度树-力扣(Leetcode)

题目链接 最小高度树 思路:本质上是找到树中的最长路径。当最长路径上中间点(若路经长为偶数,则中间点仅有一个,否者中间点有两个)作为根时,此时树高最小。 Code: class Solution { public://拓扑排序int…

【深度优先搜索】【树】【C++算法】2003. 每棵子树内缺失的最小基因值

作者推荐 动态规划的时间复杂度优化 本文涉及知识点 深度优先搜索 LeetCode2003. 每棵子树内缺失的最小基因值 有一棵根节点为 0 的 家族树 ,总共包含 n 个节点,节点编号为 0 到 n - 1 。给你一个下标从 0 开始的整数数组 parents ,其中…

第二讲:用geth和以太坊交互

一:安装geth brew install ethereum geth github网址: https://github.com/ethereum/go-ethereum 二: 用geth连接以太坊 以太坊有主网络(Ethereum Mainnet),有测试网络(Sepolia、Goerli 等等…

设计模式学习笔记 - 设计原则 - 5.依赖反转原则(控制反转、依赖反转、依赖注入)

前言 今天学习 SOLID 中的最后一个原则,依赖反转原则。 本章内容,可以带着如下几个问题: “依赖反转” 这个概念指的是 “谁跟谁” 的 “什么依赖” 被反转了? “反转” 这两个字该如何理解。我们还经常听到另外两个概念&#…

【分块三维重建】【slam】LocalRF:逐步优化的局部辐射场鲁棒视图合成(CVPR 2023)

项目地址:https://localrf.github.io/ 题目:Progressively Optimized Local Radiance Fields for Robust View Synthesis 来源:KAIST、National Taiwan University、Meta 、University of Maryland, College Park 提示:文章用了s…