OpenAI全新发布的Sora，到底意味着什么?

16日凌晨，OpenAI发布了文本视频的工具（text-do-video）Sora，整个世界再次被震撼。
Sora的出现，到底意味着什么？

Sora的背景与概述
- Sora是什么？
- 能为我们做些什么？
- 存在的一些问题
文本视频模型效果展示
- 一年前AI生成的视频
- 一位24岁女性在摩洛哥马拉喀什的魔法时刻眨眼的极端特写镜头
- 一堆金毛巡回犬的幼崽在雪地里玩耍，它们的头从雪中探出，满是雪花
- 摄像机围绕一大堆展示不同节目的复古电视旋转
- 一个机器人在赛博朋克设定中的生活故事。
- 纽约城像亚特兰蒂斯一样沉没。鱼、鲸鱼、海龟和鲨鱼在纽约街道中游动。
- 一个形状如同巨人的巨大云朵盘踞在地球上方，向地球发射雷电。
Sora的基本原理
- 自我学习物理规律
- 世界模型
通用人工智能

Sora的背景与概述

Sora是什么？

简单来说，就是OpenAI用GPT的能力来做视频文本对齐，通过将多个高分率视频素材进行降维处理，然后进行密集训练，最后达到一个想看什么就生成什么视频的效果。

Sora的底层同样采用的是Transformer架构，建立在过去的DALL·E和GPT的研究基础之上，采用了DALL·E3的重述技术，所以能更好的遵循用户的文本描述，并且也有极强的扩展性。

在这里插入图片描述

能为我们做些什么？

Sora能为我们做什么呢?我们只需要一段文本描述，就可以生成60秒1080P的视频，不光场景细腻、角色的表情也栩栩如生。

此外，Sora还能从静态图像中生成动画或拓展现有视频，从而创造多个画面，并且能够保持角色和视觉风格的一致性。

在这里插入图片描述

存在的一些问题

该模型会混淆提示的空间细节，并且难以准确模拟复杂场景中的物理现象。如下图，老人吹蜡烛前后，火苗没有丝毫变化。

在这里插入图片描述

它无法理解一个事例中包含的因果关系，比如酒杯摔碎，但是液体的流动和玻璃的破裂关系。

文本视频模型效果展示

一年前AI生成的视频

在这里插入图片描述

一位24岁女性在摩洛哥马拉喀什的魔法时刻眨眼的极端特写镜头

在这里插入图片描述

一堆金毛巡回犬的幼崽在雪地里玩耍，它们的头从雪中探出，满是雪花

在这里插入图片描述

摄像机围绕一大堆展示不同节目的复古电视旋转

在这里插入图片描述

一个机器人在赛博朋克设定中的生活故事。

在这里插入图片描述

纽约城像亚特兰蒂斯一样沉没。鱼、鲸鱼、海龟和鲨鱼在纽约街道中游动。

在这里插入图片描述

一个形状如同巨人的巨大云朵盘踞在地球上方，向地球发射雷电。

在这里插入图片描述

Sora的基本原理

OpenAI官方公布的Sora的技术文档，它没有透露太多关于Sora的技术细节，但大致介绍了Sora的基本原理：简单来说，Sora就是通过大量的学习视频来理解现实世界的动态变化，并用计算机视觉技术来模拟这些变化，并创造出全新的视觉内容。换句话说，就是Sora它所学习的不仅仅是视频里面的画面、像素点之类的，它同时也在学习视频里面那个世界的“物理规律”。

在这里插入图片描述

自我学习物理规律

听上去可能让人觉得难以费解，打个比方，比如你咬一口食物，食物这个时候应该出现一个咬痕，这就是物理规律。

如果咬完食物，它还是完整的状态，那它就不符合物理规律，现在大部分的视频软件并不能理解这些所谓的物理规律，它们所处理的对象只是画面，而不是画面里面的食物和人，以及它们之间的关系。

但是Sora似乎能够理解它们之间的关系，当Sora学习人咬食物的视频时，它记住的不仅仅是食物和嘴在一起的具体画面，还有咬过就会留痕的这个物理规律，当它以后有生成视频的时候，一旦涉及到咬这个动作，Sora就会知道下面应该会出现一个咬痕了。

世界模型

这是用Sora生成的一个咬食物的视频，用的是先记忆，再预测，这种理解世界的方式，是人类理解世界的方式，这种方式还有个名字，它被称为世界模型。

在这里插入图片描述
那什么叫世界模型，举个例子，你的记忆当中一定知道，一杯咖啡大概有多重，所以当你拿起一杯咖啡的时候，大脑准确预测说应该用多大的力，于是杯子用那个力就会被顺利拿起来，人都不会有意识的，但是如果这个杯子里面，碰巧没有咖啡呢，你就会用很大的力，去拿这个很轻的杯子，这个时候你的手就会立刻感觉不对，但杯子已经飞出去了，不过没关系，很快在你的记忆当中就会就会加上一条：杯子也有可能空的时候，于是，下次再去预测杯子重和不重的时候，你就不会太乱使力。