[大模型]视频生成-Sora简析

 参考资料:

Sora技术报告icon-default.png?t=O83Ahttps://openai.com/index/video-generation-models-as-world-simulators/4分钟详细揭密!Sora视频生成模型原理icon-default.png?t=O83Ahttps://www.bilibili.com/video/BV1AW421K7Ut

一、概述

        相较于Gen-2、Stable Diffusion、Pika等生成模型的前辈,Sora有更出众的一镜到底能力(超过60s)。一镜到底的实现中,难点在于让模型正确的理解两帧之间的逻辑性,使生成的视频具备连贯性。

二、Diffusion模型

        Diffusion(扩散模型),会基于随机过程,从噪声图像中逐步祛除噪声来满足生成满足要求的图像。分为两个部分:前向扩散反向扩散

        前向扩散会将一张清晰的图像逐步添加噪声,生成一张充满噪声的图像。而反向扩散则会从一堆噪声中逐步生成一张符合要求的清晰图片。通过反复迭代训练,模型能更好的从噪声中重建高质量的图像数据。

三、Transformer模型

        这里的Transformer主要用于进行文本生成,而非图像识别领域的特征提取。当使用文本作为输入时,连续的文本会被token化,拆分为数个单词并附加位置信息。

         接下来token会被编码器(Encoder)转换为更抽象的特征向量,而解码器(Decoder)则会根据特征向量来生成目标序列。需要注意的是,解码器会同时将特征向量已生成的文本作为输入以保证上下文的连贯性

四、Diffusion Transformer模型

        Diffusion Transformer(DiT)模型借鉴了二、三的优势,为了保证生成内容的连贯性和一致性,Sora引入了时空patch的概念。类似于Transformer中的token,将原始视频通过视觉编码器被压缩为一组低维度特征向量。

         通过这种方式,模型可以同时关注视频中对象在当前帧中的空间位置整个视频中的时间位置

         得益于视觉编码器的压缩,Sora可以很简单的在低维空间中进行训练。经过训练后,Sora会根据噪声patch提示词生成清晰的patch。但这个patch实际上也是一个无法被人理解的低维表示。需要解码器将其还原成视频。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/59515.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【docker入门】docker的安装

目录 Centos 7 添加docker 官方仓库到yum源 将 Docker 的官方镜像源替换为国内可以的 Docker 镜像源 安装docker 配置docker加速源 Ubuntu 创建 gpg key 目录 下载 gpg key 添加国内可用镜像源到 系统的 APT 仓库中 安装docker 配置加速源 Centos 7 添加docker 官方仓…

2024年【汽车修理工(高级)】考试总结及汽车修理工(高级)试题及解析

题库来源:安全生产模拟考试一点通公众号小程序 汽车修理工(高级)考试总结是安全生产模拟考试一点通总题库中生成的一套汽车修理工(高级)试题及解析,安全生产模拟考试一点通上汽车修理工(高级&a…

vscode的一些使用心得

问题1:/home目录空间有限 连接wsl或者remote的时候,会在另一端下载一个.vscode-server,vscode的插件都会安装进去,导致空间增加很多,可以选择更换这个文件的位置 参考:https://blog.csdn.net/weixin_4389…

Qt(openCV的应用)

1. OpenCV简介 OpenCV(Open Source Computer Vision Library)是一个开源的计算机视觉库,它提供了丰富的图像处理和计算机视觉功能。该库由英特尔公司发起,并在 BSD 许可证下发布,因此它是免费的,且开放源代…

【大语言模型】ACL2024论文-06 探索思维链COT在多模态隐喻检测中的应用

【大语言模型】ACL2024论文-06 探索思维链COT在多模态隐喻检测中的应用 目录 文章目录 【大语言模型】ACL2024论文-06 探索思维链COT在多模态隐喻检测中的应用目录摘要研究背景问题与挑战如何解决创新点算法模型1. 知识总结模块(Knowledge Summarization Module&…

Kubernetes中的statefulset控制器

华子目录 statefulset控制器功能StatefulSet的组成部分 问题复现示例statefulset示例总结 statefulset控制器 功能 Statefulset是为了解决有状态服务的问题设计的StatefulSet将应用状态抽象成了两种情况拓扑状态:应用实例必须按照某种顺序启动。新创建的Pod必须和…

【Android】时区规则库tzdata更新

1 背景: 最近我遇到墨西哥城时区,会出现夏令时,而墨西哥城在2022年底都已经取消夏令时了。 看起来是要更新RK3588上的时区库,我的还是2021a,而现在都已经2024年了 这样能看版本号: cat /system/usr/sha…

【论文速看】DL最新进展20241106-图像分类、图像分割、时间序列预测

目录 【图像分类】【图像分割】【时间序列预测】 【图像分类】 [2024 解耦数据增强] Decoupled Data Augmentation for Improving Image Classification 机构:腾讯优图 论文链接:https://arxiv.org/pdf/2411.02592v1 代码链接:无 最近在图…

[MRCTF2020]PYWebsite1

如果输入的密钥是对的那么我们就直接跳转到flag.php页面 那么我们直接访问😎,他不带我们去我们自己去. 那就用XFF呗. 知识点: 定义:X-Forwarded-For是一个HTTP请求头字段,用于识别通过HTTP代理或负载均衡方式连接到W…

穿越文化与时空的回响——从廖问洁《红豆诗词选》看当代人文情怀

穿越文化与时空的回响 ——从廖问洁《红豆诗词选》看当代人文情怀 在快节奏的现代生活中,我们时常感到身心的疲惫,渴望找到一种能够洗涤内心的方式。而廖问洁的《红豆诗词选》就如同一股清泉,为我们带来了心灵的洗礼和慰藉。 这位来自94年的…

【sqlmap使用手册-持续更新中】

SQLMap 简介 SQLMap 是一个开源的渗透测试工具,用于自动化检测和利用 SQL 注入漏洞。它支持多种数据库,包括 MySQL、PostgreSQL、Oracle、SQL Server 等。 可以通过以下命令安装sqlmap git clone https://github.com/sqlmapproject/sqlmap.git最常用的…

吉利极氪汽车嵌入式面试题及参考答案

inline 的作用 inline 是 C++ 中的一个关键字。它主要用于函数,目的是建议编译器将函数体插入到调用该函数的地方,而不是像普通函数调用那样进行跳转。 从性能角度来看,当一个函数被标记为 inline 后,在编译阶段,编译器可能会将函数的代码直接复制到调用它的位置。这样做…

详解Rust标准库:VecDeque 队列

theme: github highlight: an-old-hope 查看本地官方文档 安装rust后运行 rustup doc查看The Standard Library即可获取标准库内容 std::connections::VecDeque定义 队列是遵循先入先出规则的线性数据结构,在内存中不一定连续 VecDeque定义:可增长…

有哪些实用的 Ads Spy 工具推荐?

了解竞争对手的广告策略至关重要。Ads Spy 工具可以帮助我们洞察竞争对手的广告活动,从而优化自己的推广计划。以下是一些实用的 Ads Spy 工具介绍: 1. PowerAdSpy:可以按广告版位全渠道搜索筛选,实时在线筛查正在展示的广告&…

01 Oracle 数据库存储结构深度解析:从数据文件到性能优化的全链路探究

文章目录 Oracle 数据库存储结构深度解析:从数据文件到性能优化的全链路探究一、Oracle存储结构的物理层次1.1 控制文件(Control File)1.2 联机重做日志文件(Online Redo Log File)1.3 数据文件(Data File&…

练习LabVIEW第四十二题

学习目标: 使用labview编写一个用户确认界面: 我们在程序中赋予5个人的账号密码,账号使用人名,密码随便,并规定相关权限。访问权限要在前面板显示,并且访问成功与否也要有显示。 开始编写: 前…

如何安装QT(linux/windows)

1. linux 1.1 下载安装程序 进入QT官网,点击右上角下载 Qt | Tools for Each Stage of Software Development Lifecycle​www.qt.io/ 然后选择下载linux版本,这里你需要填写一些信息,注册一些即可 填写之后会出现下面这个网页,…

数组和指针的复杂关系

C语言中指针和数组的关系似乎很“纠结”,让人爱恨交织。本文试图帮助读者理清它们之间的复杂关系! 数组名的理解 数组元素在内存中是连续存放的,在C语言中,数组名有特殊的含义,它表示数组首元素的地址。因此&#xf…

pandas和numpy介绍

pandas和numpy都是Python中用于数据处理和分析的重要库,它们有以下特点和区别: numpy(Numerical Python) 基本功能: numpy是一个功能强大的Python库,主要用于对多维数组执行计算。它提供了一个高性能的多…

GitHub每日最火火火项目(11.6)

项目名称:zmh-program/chatnio 项目介绍:“zmh-program/chatnio”是下一代 AI 一站式国际化解方案,无论是 B 端还是 C 端用户都能从中受益。它支持众多知名的 AI 模型,如 OpenAI、Midjourney、Claude、讯飞星火、Stable Diffusion…