正确看待OpenAI大模型Sora

    2月16日凌晨,OpenAI发布了文生视频模型Sora。官方是这样描述的:Sora is an AI model  that can create realistic and imaginative scenes from text instructions.Sora一个人工智能模型,它可以根据文本指令创建逼真和富有想象力的场景。Sora能够在同时保持视觉质量和遵循用户提示的情况下,生成长达一分钟的视频。Sora 与 ChatGPT 一样采用 Transformer 架构,并使用了 DALL-E 3 中的重述技术。除了文本生成视频之外,Sora 还能根据图像生成视频,并能准确地对图像内容进行动画处理。也能提取视频中的元素,对其进行扩展或填充缺失的帧。

    几乎在同一时间,OpenAI也发布了关于Sora相关的技术报告:《Video generation models as world simulators》视频生成模型:构建虚拟世界的模拟器,这篇技术报告的侧重点在于将所有类型的视觉数据转化为统一表示的方法,该方法能够对生成模型进行大规模训练,以及对Sora的能力和局限性进行定性评估,而Sora的模型和实现细节未包含在报告中。

     很多的权威媒体或自媒体过分夸大了“Sora的威力”,各种标题党层出不穷,但我认为Sora到目前为止仅为视频生成提供一种新的解决方案,就像ChatGPT,将来作为一种工具服务于人类,而不必过分夸大。对于所处这个行业的技术人员,应该跟随这个趋势,研究Sora的内涵,追赶前沿技术。

     具体的我们看一下报告的内容。报告中指出,人们已经使用各种方法研究了视频数据的生成建模,包括循环网络(recurrent networks)、生成对抗网络(generative adversarial networks)、自回归变换器(autoregressive transformers)和扩散模型(diffusion models)。这些工作通常集中在视觉数据的狭窄类别、较短的视频或固定大小的视频上。Sora是一个视觉数据的通用模型——它可以生成跨越不同时长、宽高比和分辨率的视频和图像,最长可达一分钟的高清视频。以下为报告引用的一些学术研究文章。

    我们来看看文生视频的原理:

1.将视觉数据转化为图块(patch)

我们从大型语言模型中获得灵感,这些模型通过在互联网规模数据上训练获得通用能力。大型语言模型的成功在一定程度上得益于使用能够统一文本的多样化(如代码、数学和各种自然语言)的标记。在这项工作中,我们考虑视觉数据的生成模型如何继承这些优势。与大型语言模型拥有文本标记一样,Sora拥有视觉图块。先前的研究已经表明,图块是视觉数据模型的一种有效表示。我们发现,图块是一种高度可扩展且有效的表示,用于在各种类型的视频和图像上训练生成模型。

参考文献如下:

2.训练一个降低视觉数据维度的网络

3.时空潜在图块处理

基于patch,使得Sora能够训练不同分辨率、持续时间和宽高比的视频和图像。在推理时,通过在适当大小的网格中排列随机初始化的patches来控制生成视频的大小。

在图像和视频生成的早期方法中,通常会将视频调整大小、裁剪或修剪到标准大小——例如,4秒长的视频,分辨率为256x256。但是如果直接在原始数据上进行训练有几个好处:

(1)采样灵活性

Sora能够采样宽屏1920x1080p视频、竖屏1080x1920p视频以及介于两者之间的所有内容。它还允许我们在生成全分辨率内容之前,快速原型设计较小尺寸的内容——所有这些都使用同一个模型。

(2)提高了构图和布局

通过实证发现,在其原生宽高比上训练视频能够改进构图和布局。将Sora与模型的另一个版本进行比较,该版本将所有训练视频裁剪为正方形,这是训练生成模型时的常见做法。在正方形裁剪上训练的模型(左侧)有时会生成主题只部分可见的视频。相比之下,Sora的视频(右侧)具有改进的构图。

4.语言理解

训练文本到视频生成系统需要大量带有对应文本标题的视频。Sora应用了在DALL-E 3中引入的重新标题技术(re-captioning technique)到视频上。首先训练一个高度描述性的标题生成模型,然后使用它为我们训练集中的所有视频生成文本标题。基于高度描述性视频标题的训练提高了文本保真度以及视频的整体质量。

Sora除了能够实现文本到视频的输出,也可以通过其他输入,如预先存在的图像或视频,来进行提示。这种能力使得Sora能够执行广泛的图像和视频编辑任务——创建完美循环的视频、为静态图像添加动画、向前或向后扩展视频等。

挑选了官网有意思的两个demo,其一个视频截图体现了视频连接:

另外一个视频体现了视频编辑:

当然Sora目前还存在许多局限性。例如,它不能准确地仿真许多基本交互的物理,如玻璃破碎。其他交互,如吃食物,并不总是产生正确的物体状态变化。报告中也列举了模型的其他常见失败模式——例如,长时间样本中发展出的不连贯性或物体的自发出现。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/685280.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网络安全防御保护 Day5

今天的任务如下 要求一的解决方法: 前面这些都是在防火墙FW1上的配置。 首先创建电信的NAT策略 这里新建转换后的地址池 移动同理,不过地址池不一样 要求二的解决方法: 切换至服务器映射选项,点击新建,配置外网通过…

Java 基于 SpringBoot+Vue 的校园交友网站,附源码

博主介绍:✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇…

DarkSide针对VMware EXSI系统进行加密

前言 最近黑客组织利用DarkSide勒索病毒对Colonial Pipeline 发起勒索攻击,国内外各大安全厂商和安全媒体也都有相关报道,DarkSide勒索软件是从2020年8月出现,并以(RAAS)勒索即服务的商业模式进行运作,此勒索病毒不仅可以部署基于…

详解 Redis 实现数据去重

✨✨ 欢迎大家来到喔的嘛呀的博客✨✨ 🎈🎈希望这篇博客对大家能有帮助🎈🎈 目录 言 一. Redis去重原理 1. Redis Set 数据结构 2. 基于 Set 实现数据去重 3. 代码示例 4. 总结 …

月薪30K-100K,新一波工作机会来了,你准备好了吗

纯血版鸿蒙发布,开启一个新时代 1月18日下午,在“鸿蒙千帆起”发布会上,华为揭秘鸿蒙生态和纯血鸿蒙星河版HarmonyOS NEXT进阶的新进展。“几年来,在众多伙伴和开发者的共同努力下,鸿蒙生态设备数已达8亿,…

【医学图像分割 2024】BEFUnet

文章目录 【医学图像分割 2024】BEFUnet摘要1. 介绍2. 相关工作2.1 基于CNN的分割网络2.2 ViT2.3 用于医学图像分割的Transformer 3. 方法3.1 双支路编码器3.1.1 边缘编码器3.1.2 主体编码器 3.2 LCAF模块3.2.1 双级融合模块(DLF) 3.3 损失函数3.3.1 边缘监督损失3.3.2 整体边缘…

AJAX——接口文档

1 接口文档 接口文档&#xff1a;描述接口的文章 接口&#xff1a;使用AJAX和服务器通讯时&#xff0c;使用的URL&#xff0c;请求方法&#xff0c;以及参数 传送门&#xff1a;AJAX阶段接口文档 <!DOCTYPE html> <html lang"en"><head><meta c…

家人们,比赛打完了

啊&#xff0c;终于打完一场比赛了&#xff0c;但还有三场…… 先看看我的战绩&#xff1a; 共八题&#xff0c;AC6题&#xff0c;总共3902分&#xff0c;3.7k人参加&#xff0c;第980名 来看看第一&#xff1a; A8题&#xff0c;我只有2题没做出&#xff0c;相差4000多分&am…

Compose 自定义 - 数据转UI的三阶段(组合、布局、绘制)

一、概念 Compose 通过三个阶段把数据转化为UI&#xff1a;组合&#xff08;要显示什么&#xff09;、布局&#xff08;要显示在哪里&#xff09;、绘制&#xff08;如何渲染&#xff09;。 组合阶段 Compisition 界面首次渲染时会将可组合函数转化为一个个布局节点 Layout Nod…

0102awvs安装-扫描-信息收集

1 安装awvs23.7 解压压缩包&#xff0c;解压密码网站网址&#xff0c;下载地址在最后链接双击acunetix_23.7.230728157.exe安装程序 安装位置默认&#xff0c;如更改位置&#xff0c;后面需要更改bat文件相应内容 设置管理员信息 next直到浏览器跳出登录界面 2 运行运行www.dd…

第9章 网络编程

9.1 网络通信协议 通过计算机网络可以实现多台计算机连接&#xff0c;但是不同计算机的操作系统和硬件体系结构不同&#xff0c;为了提供通信支持&#xff0c;位于同一个网络中的计算机在进行连接和通信时必须要遵守一定的规则&#xff0c;这就好比在道路中行驶的汽车一定要遵…

Spring Resource

java.net.URL 类可用于访问带有各种URL前缀的资源&#xff0c;但是对于访问一些资源还是不够方便。比如不能从类路径或者相对于ServletContext来获取资源。而Spring 的Resource接口&#xff0c;则可以通过类路径等方式来访问资源。 1 Resource接口 图 Resource接口及方法 getI…

CCF编程能力等级认证GESP—C++2级—20231209

CCF编程能力等级认证GESP—C2级—20231209 单选题&#xff08;每题 2 分&#xff0c;共 30 分&#xff09;判断题&#xff08;每题 2 分&#xff0c;共 20 分&#xff09;编程题 (每题 25 分&#xff0c;共 50 分)小杨做题小杨的 H 字矩阵 参考答案单选题判断题编程题1编程题2 …

C++ STL->list模拟实现

theme: smartblue list list文档 list是可以在常数范围内在任意位置进行插入和删除的序列式容器&#xff0c;并且该容器可以前后双向迭代。list的底层是双向链表结构&#xff0c;双向链表中每个元素存储在互不相关的独立节点中&#xff0c;在节点中通过指针指向 其前一个元素…

bpmn-js 事件总线处理

bpmn-js中使用EventBus作为事件的处理句柄&#xff0c;EventBus的使用和我们常规使用的事件总线没啥大的区别&#xff0c;其源码位于&#xff1a;/diagram-js/lib/core/EventBus.js &#xff08;bpmn-js使用diagram-js实现流程图的web端绘制呈现工具&#xff09;。 EventBus使用…

代码随想录算法训练营第三二天 | 买卖股票、跳跃游戏

目录 买卖股票的最佳时机II跳跃游戏跳跃游戏ii LeetCode 122.买卖股票的最佳时机II LeetCode 55. 跳跃游戏 LeetCode 45.跳跃游戏II 买卖股票的最佳时机II 只有一只股票&#xff01; 当前只有买股票或者卖股票的操作。 最终利润是可以分解的&#xff1a;把利润分解为每天为…

变分自编码器(VAE)PyTorch Lightning 实现

✅作者简介&#xff1a;人工智能专业本科在读&#xff0c;喜欢计算机与编程&#xff0c;写博客记录自己的学习历程。 &#x1f34e;个人主页&#xff1a;小嗷犬的个人主页 &#x1f34a;个人网站&#xff1a;小嗷犬的技术小站 &#x1f96d;个人信条&#xff1a;为天地立心&…

SAP PP学习笔记- 豆知识02 - 品目要谁来维护?怎么决定更不更新品目的数量金额?

其实都是在品目类型的Customize中设定的。 咱们这里简单试着说一下什么场景使用。 1&#xff0c;SAP中品目有很多View&#xff0c;都要由哪些部门来维护呢&#xff1f; 其实就是谁用谁维护呗。 在新建一个品目的时候&#xff0c;品目Type本身就决定了该品目要由哪些部门来维…

数据结构(4) 链表(链式存储)

链表&#xff08;链式存储&#xff09; 单链表定义基本操作的实现单链表的插入按位序插入指定节点的前插指定节点的后插 单链表的删除 小结 单链表 定义 顺序表优点:可随机存取&#xff0c;存储密度高&#xff0c;缺点:要求大片连续空间&#xff0c;改变容量不方便。 单链表优…

高数总结(4

目录 1.总结&#xff1a;小结&#xff1a; 1.总结&#xff1a; 小结&#xff1a; 关注我给大家分享更多有趣的知识&#xff0c;以下是个人公众号&#xff0c;提供 ||代码兼职|| ||代码问题求解|| 由于本号流量还不足以发表推广&#xff0c;搜我的公众号即可&#xff1a;