OpenAI全新发布的Sora,到底意味着什么?

16日凌晨,OpenAI发布了文本视频的工具(text-do-video)Sora,整个世界再次被震撼。
Sora的出现,到底意味着什么?

目录

  • Sora的背景与概述
    • Sora是什么?
    • 能为我们做些什么?
    • 存在的一些问题
  • 文本视频模型效果展示
    • 一年前AI生成的视频
    • 一位24岁女性在摩洛哥马拉喀什的魔法时刻眨眼的极端特写镜头
    • 一堆金毛巡回犬的幼崽在雪地里玩耍,它们的头从雪中探出,满是雪花
    • 摄像机围绕一大堆展示不同节目的复古电视旋转
    • 一个机器人在赛博朋克设定中的生活故事。
    • 纽约城像亚特兰蒂斯一样沉没。鱼、鲸鱼、海龟和鲨鱼在纽约街道中游动。
    • 一个形状如同巨人的巨大云朵盘踞在地球上方,向地球发射雷电。
  • Sora的基本原理
    • 自我学习物理规律
    • 世界模型
  • 通用人工智能

Sora的背景与概述

Sora是什么?

简单来说,就是OpenAI用GPT的能力来做视频文本对齐,通过将多个高分率视频素材进行降维处理,然后进行密集训练,最后达到一个想看什么就生成什么视频的效果。

Sora的底层同样采用的是Transformer架构,建立在过去的DALL·E和GPT的研究基础之上,采用了DALL·E3的重述技术,所以能更好的遵循用户的文本描述,并且也有极强的扩展性。

在这里插入图片描述

能为我们做些什么?

Sora能为我们做什么呢?我们只需要一段文本描述,就可以生成60秒1080P的视频,不光场景细腻、角色的表情也栩栩如生。

此外,Sora还能从静态图像中生成动画或拓展现有视频,从而创造多个画面,并且能够保持角色和视觉风格的一致性。

在这里插入图片描述

存在的一些问题

  1. 该模型会混淆提示的空间细节,并且难以准确模拟复杂场景中的物理现象。如下图,老人吹蜡烛前后,火苗没有丝毫变化。

在这里插入图片描述

  1. 它无法理解一个事例中包含的因果关系,比如酒杯摔碎,但是液体的流动和玻璃的破裂关系。
    在这里插入图片描述

文本视频模型效果展示

一年前AI生成的视频

在这里插入图片描述

一位24岁女性在摩洛哥马拉喀什的魔法时刻眨眼的极端特写镜头

在这里插入图片描述

一堆金毛巡回犬的幼崽在雪地里玩耍,它们的头从雪中探出,满是雪花

在这里插入图片描述

摄像机围绕一大堆展示不同节目的复古电视旋转

在这里插入图片描述

一个机器人在赛博朋克设定中的生活故事。

在这里插入图片描述

纽约城像亚特兰蒂斯一样沉没。鱼、鲸鱼、海龟和鲨鱼在纽约街道中游动。

在这里插入图片描述

一个形状如同巨人的巨大云朵盘踞在地球上方,向地球发射雷电。

在这里插入图片描述

Sora的基本原理

OpenAI官方公布的Sora的技术文档,它没有透露太多关于Sora的技术细节,但大致介绍了Sora的基本原理:简单来说,Sora就是通过大量的学习视频来理解现实世界的动态变化,并用计算机视觉技术来模拟这些变化,并创造出全新的视觉内容。换句话说,就是Sora它所学习的不仅仅是视频里面的画面、像素点之类的,它同时也在学习视频里面那个世界的“物理规律”。

在这里插入图片描述

自我学习物理规律

听上去可能让人觉得难以费解,打个比方,比如你咬一口食物,食物这个时候应该出现一个咬痕,这就是物理规律。

如果咬完食物,它还是完整的状态,那它就不符合物理规律,现在大部分的视频软件并不能理解这些所谓的物理规律,它们所处理的对象只是画面,而不是画面里面的食物和人,以及它们之间的关系。

但是Sora似乎能够理解它们之间的关系,当Sora学习人咬食物的视频时,它记住的不仅仅是食物和嘴在一起的具体画面,还有咬过就会留痕的这个物理规律,当它以后有生成视频的时候,一旦涉及到咬这个动作,Sora就会知道下面应该会出现一个咬痕了。

世界模型

这是用Sora生成的一个咬食物的视频,用的是先记忆,再预测,这种理解世界的方式,是人类理解世界的方式,这种方式还有个名字,它被称为世界模型。

在这里插入图片描述
那什么叫世界模型,举个例子,你的记忆当中一定知道,一杯咖啡大概有多重,所以当你拿起一杯咖啡的时候,大脑准确预测说应该用多大的力,于是杯子用那个力就会被顺利拿起来,人都不会有意识的,但是如果这个杯子里面,碰巧没有咖啡呢,你就会用很大的力,去拿这个很轻的杯子,这个时候你的手就会立刻感觉不对,但杯子已经飞出去了,不过没关系,很快在你的记忆当中就会就会加上一条:杯子也有可能空的时候,于是,下次再去预测杯子重和不重的时候,你就不会太乱使力。

你做的事情越多,你的大脑里就会形成越复杂的世界模型,用于更准确的预测这个世界的反应,这就是人类与世界交互的方式:世界模型。

通用人工智能

Sora的技术文档里面有这么一句话,我们的结果表明,扩展视频生成模型是朝着构建通用物理世界模拟器迈进的有希望的模型,这样感觉很复杂,它实际是什么意思呢?

它的意思就是,OpenAI它最终想要做的,不是一个文本视频的工具,而是一个通用的物理世界模拟器,他们真正想要做的是为真实世界建模,而Sora只是验证了这条道路可行。

Sora的出现可能意味着,通用人工智能,也就是所谓的AGI正在加速到来,这才是OpenAI真正想做的事情。

为什么Sam Altman要筹集七万亿美金来重塑全球AI芯片的基础设施,7万亿相当于全球GDP的10%,它能买下2.5个微软,4个英伟达,或者11.5个特斯拉,为什么?

因为通往通用人工智能的道路上,除了要算法,还需要大量的算力,Sora来了,通用人工智能还会远吗?

这个世界正在发生着难以想象的变化,看似很远,但又瞬间近在眼前。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/687789.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

字节8年经验之谈 —— 详解python自动化单元测试!

1. 前言 说实话,除了测试要求,我实在不知道写单元测试有什么意义,一个函数50行代码,有多种参数组合,为了测试这些条件,需要编写测试用例,写完的测试用例比需要测试的函数还长。也就是说&#x…

可观测集合 ObservableCollection<T>、BindingList<T>

引言 WPF中经常使用的是集合类型,数据条目经常按集合类型进行保存收纳,当我们向用户公开一些命令:添加、删除或刷新整个列表,如何通知界面进行准确的刷新呢?这时我们就需要使用可被观测的集合 ObservableCollection<T>、BindingList 1、ObservableCollection<T…

257.【华为OD机试真题】幼儿园篮球游戏(贪心算法-JavaPythonC++JS实现)

🚀点击这里可直接跳转到本专栏,可查阅顶置最新的华为OD机试宝典~ 本专栏所有题目均包含优质解题思路,高质量解题代码(Java&Python&C++&JS分别实现),详细代码讲解,助你深入学习,深度掌握! 文章目录 一. 题目二.解题思路三.题解代码Python题解代码JAVA题解…

14-树-二叉树的最小深度

这是树的第14篇算法&#xff0c;力扣链接。 给定一个二叉树&#xff0c;找出其最小深度。 最小深度是从根节点到最近叶子节点的最短路径上的节点数量。 说明&#xff1a;叶子节点是指没有子节点的节点。 示例 1&#xff1a; 输入&#xff1a;root [3,9,20,null,null,15,7] 输出…

ubuntu18.04运行DynaSLAM,实例分割+多视图几何+背景修复

博主电脑上之前就安装了ORB-SLAM2所需的环境&#xff0c;所以baseline为ORB-SLAM2的算法几乎都是直接./build.sh即可。需要我们安装的内容就是python的环境&#xff0c;Pytorch或者TensorFlow&#xff0c;以及下载预训练模型和数据集。 一、安装ORB-SLAM2所需的库 C11 or C0x…

全网Bento和3D?点评2024年UX/UI设计趋势

2024年已经到来&#xff0c;对于UX/UI设计领域来说&#xff0c;这可能是过去若干年来UI / UX趋势最统一、最确定的一年。在接下来的文章中&#xff0c;笔者将在点评各个设计趋势的同时&#xff0c;分析现象背后的原因&#xff0c;并给新入行的设计师一些成长的建议。 什么是UI和…

【C语言】(26)预定义符号

核心预定义符号 __FILE__&#xff1a;字符串类型&#xff0c;表示当前源代码文件的名称。__LINE__&#xff1a;整型&#xff0c;表示当前源代码的行号。__DATE__&#xff1a;字符串类型&#xff0c;表示源文件被编译的日期&#xff0c;格式为 "MMM DD YYYY"。__TIME…

sqlserver union 和union all

在 SQL Server 中&#xff0c;UNION 和 UNION ALL 是用于合并两个或多个 SELECT 查询结果的操作符。 UNION: UNION 操作符用于合并两个或多个 SELECT 查询的结果&#xff0c;并去除重复的行。如果两个查询的结果集中有相同的行&#xff0c;则只会返回一个。语法如下&#xff1…

数据结构-邻接矩阵

介绍 邻接矩阵&#xff0c;是表示图的一种常见方式&#xff0c;具体表现为一个记录了各顶点连接情况的呈正方形的矩阵。 假设一共有以下顶点&#xff0c;其连接关系如图所示 那么&#xff0c;怎么表示它们之间的连接关系呢&#xff1f; 我们发现&#xff0c;各条边所连接的都…

你知道专业4S店神秘顾客是如何砍价的吗?

在汽车市场中&#xff0c;神秘顾客调研已经成为评估销售服务质量和客户体验的重要手段。通过神秘顾客的实地探访&#xff0c;品牌方和销售商可以获取真实、客观的反馈意见&#xff0c;从而针对性地改进服务。另外神秘顾客在执行过程中还可以通过砍价的方式了解该门店是否出现价…

C语言题目:一些简单的编程和递归题目

以下的题目的较难的点都在注释里面讲解清楚了 一. 1.喝汽水&#xff0c;1瓶汽水1元&#xff0c;2个空瓶可以换一瓶汽水&#xff0c;给20元&#xff0c;可以喝多少汽水&#xff08;编程实现&#xff09;。 代码实现&#xff1a; int main() {int money 20;int price 1;int e…

C#,二进制数的非0位数统计(Bits Count)的算法与源代码

计算一个十进制数的二进制表示有多少位1&#xff1f; 1 遍历法&#xff08;递归或非递归&#xff09; 使用循环按位统计1的个数。 2 哈希查表法 利用一个数组或哈希生成一张表&#xff0c;存储不同二进制编码对应的值为1的二进制位数&#xff0c;那么在使用时&#xff0c;只…

(每日持续更新)信息系统项目管理(第四版)(高级项目管理)考试重点整理第10章 项目进度管理(五)

博主2023年11月通过了信息系统项目管理的考试&#xff0c;考试过程中发现考试的内容全部是教材中的内容&#xff0c;非常符合我学习的思路&#xff0c;因此博主想通过该平台把自己学习过程中的经验和教材博主认为重要的知识点分享给大家&#xff0c;希望更多的人能够通过考试&a…

华为OD机试真题- 攀登者2-2024年OD统一考试(C卷)

题目描述: 攀登者喜欢寻找各种地图,并且尝试攀登到最高的山峰。地图表示为一维数组,数组的索引代表水平位置,数组的高度代表相对海拔高度。其中数组元素0代表地面。例如[0,1,4,3,1,0,0,1,2,3,1,2,1,0], 代表如下图所示的地图,地图中有两个山脉位置分别为 1,2,3,4,5和8,9,1…

「优选算法刷题」:判定字符是否唯一

一、题目 实现一个算法&#xff0c;确定一个字符串 s 的所有字符是否全都不同。 示例 1&#xff1a; 输入: s "leetcode" 输出: false 示例 2&#xff1a; 输入: s "abc" 输出: true限制&#xff1a; 0 < len(s) < 100 s[i]仅包含小写字母 二…

控制程序执行流程

资源 资源下载 【免费】突破密码认证程序&#xff08;修改函数返回地址&#xff09;资源-CSDN文库 资源内容 源码 在上一篇文章里 修改函数返回地址-CSDN博客 流程 对程序进行编译 思路 了解栈的情况&#xff08;函数地址、缓冲区偏移量&#xff09;程序中密码认证的地…

SHERlocked93 的 2023 年终总结

工作之后感觉一年一年过的太快&#xff0c;没有个记录连回忆都无从回忆起&#xff0c;之前的年终总结&#xff1a; SHERlocked93 的 2022 年终总结SHERlocked93 的 2021 年终总结SHERlocked93 的 2020 年终总结SHERlocked93 的 2019 年终总结SHERlocked93 的 2018 年终总结SHER…

js设计模式:发布订阅模式

作用: 也称之为消息队列模式,或者pubsub模式 发布者发布消息(也可以理解为调用某函数),订阅者会收到消息,并且发布者可以将一些参数传递给订阅者。 是一种常用的参数传递方法,经典的pubsub.js,vue2中的$bus等都是用的这种模式。 示例: <!DOCTYPE html> <html lan…

模仿 STM32 驱动开发格式实验

1.模仿 STM32 寄存器定义 为了开发方便&#xff0c; ST 官方为 STM32F103 编写了一个叫做 stm32f10x.h 的文件&#xff0c;在这个文件 里面定义了 STM32F103 所有外设寄存器&#xff0c;我们可以使用其定义的寄存器来进行开发&#xff0c;比如我 们可以用如下代码来初始…

kube-ovn默认vpc

下面图是kube-ovn默认vpc的拓扑 默认vpc kube-ovn安装完成后会自带一个默认vpc是ovn-cluster&#xff0c;并且会在这个默认vpc下创建ovn-default子网、join子网&#xff0c; 默认子网 ovn-default是ovn-cluster下的默认子网&#xff0c;在创建pod时没有指定子网时会使用这个…