人工智能专题： Sora，世界模拟器的视频生成器

今天分享的是人工智能系列深度研究报告：《人工智能专题： Sora，世界模拟器的视频生成器》。

（报告出品方：华泰证券）

报告共计：16页

来源：人工智能学派

Sora 能做什么？60s 文生视频功能惊艳，可以理解和模拟真实世界

根据 OpenAI 官方介绍，目前 Sora 具备生成包括多个角色、特定类型的运动、准确细节的主体和复杂场景的能力。同时，还能够创建多个镜头，模拟复杂的摄像机运镜效果，使得生成的视频更加生动。此外，由于 OpenAI 将扩散模型与 LLM 相结合，使得 Sora 具备了理解和模拟真实世界的能力，因此 Sora 所生成的视频中已经可以展现出空间以及空间内物体之间的真实物理关系。目前 Sora 除了文生视频功能外，还具备图生视频、视频扩展、视频拼接、视频编辑、图像生成等功能，具体功能如下：

文生视频：基于用户的自然语言描述准确地生成相应视频内容。以 OpenAI 官方发布的范例视频为例，输入提示词：“一位时尚的女士漫步在东京街头，街上充满了温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子，手中提着一个黑色手提包。她戴着太阳镜，涂着红色口红。走路时自信而随意。街道潮湿且反光，形成了彩色灯光的镜面效果，许多行人来来往往。”输出作品参考下图。

图生视频：基于用户提供的参考图片及文本指令，衍生出视频内容。

视频扩展：Sora 具备了能够将视频沿着时间线向过去或未来扩展的功能。即从一个生成视频的片段出发，向时间的倒退或前进方向进行延伸，从而生成视频的开头或结尾部分。

视频拼接：用户可以使用 Sora 在两个输入视频之间逐渐进行插入补充视频，从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。

视频编辑：Sora 可以将用户输入的基础视频，基于用户的文本指令，在零样本的情况下改变原视频的风格、环境、拍摄手法等。

图像生成：根据给出的文本提示，Sora 可通过将高斯噪点的补丁安排在一个空间网格中，时间维度设为单一帧，进而生成不同尺寸的图像，分辨率最高可达 2048x2048。例如下列图片的提示词为“一个女人在秋天的特写肖像，每一个细节都被捕捉得淋漓尽致，浅景深的应用使得主体脱颖而出”，“充满生机的珊瑚礁吸引了五颜六色的鱼类和海洋生物”。

Sora 有何优势？视频质量优势显著，突破视频时长及镜头切换限制

Sora 生成视频质量较 Pika、Runway 具有显著优势。相较于 Pika、Runway 等之前的 AI 文生视频工具，Sora 除了拥有视频向前扩展、视频拼接等功能外，还可以通过多镜头等方式生成相较于其他 AI 文生视频工具更加复杂的视频，同时在时长、流畅度以及逻辑性方面表现出了显著的优势，并且初步具备了理解和模拟真实物理世界的能力。OpenAI 认为，视频生成模型是构建通用物理世界模拟器的一条有前景的道路，它使人工智能理解和模拟运动中的物理世界，迈向了一个新的高度。Sora 的发布也意味着 AGI 有望加速到来，是 AGI 实现过程里的重大里程碑事件，而不仅仅只是视频生成。Sora 具体优势如下：

突破视频时长及镜头切换限制：由于受到 AI 算法和学习能力的限制，RunWay、Pika 等之前的头部 AI 文生视频工具，无法完成镜头切换后的衔接，因此生成的作品往往都局限于 10 秒内的单一镜头视频。而 Sora 不仅可以实现不同镜头之前流畅的切换，还能生成 60 秒的超长视频。

更加自由的视频尺寸：基于 OpenAI 公布的 Sora 技术报告，Sora 模型可以生成 1920x1080 与 1080x1920 之间所有尺寸的视频。而 Runway Gen2，仅支持长宽比为 4:3、3:4、16:9、 9:16、1:1、21:9 的视频。

背景角色稳定：过往的 AI 文生视频工具通常会出现背景角色不稳定的情况，即在背景中有许多的人或动物的情况下，画面经常出现失真、混乱的情况。而这个问题在 Sora 的视频中也得到了改善，以“东京漫步的女士”视频为例，在 Runway 中输入同样的提示词后，背景人物会做出一些怪异的走路姿势，而 Sora 视频中背景角色表现非常稳定。

理解和模拟真实世界：由于 Sora 初步具备了理解和模拟真实世界的能力，因此 Sora 生成的视频通常具备一些新兴特征，主要包括 3D 一致性、物体持久性、模拟物理交互等，这些特征也使得 Sora 生成的视频更加的生动、逼真。