今天分享的是人工智能系列深度研究报告:《人工智能专题: Sora,世界模拟器的视频生成器》。
(报告出品方:华泰证券)
报告共计:16页
来源:人工智能学派
Sora 能做什么?60s 文生视频功能惊艳,可以理解和模拟真实世界
根据 OpenAI 官方介绍,目前 Sora 具备生成包括多个角色、特定类型的运动、准确细节的 主体和复杂场景的能力。同时,还能够创建多个镜头,模拟复杂的摄像机运镜效果,使得 生成的视频更加生动。此外,由于 OpenAI 将扩散模型与 LLM 相结合,使得 Sora 具备了 理解和模拟真实世界的能力,因此 Sora 所生成的视频中已经可以展现出空间以及空间内物 体之间的真实物理关系。目前 Sora 除了文生视频功能外,还具备图生视频、视频扩展、视频拼接、视频编辑、图像生成等功能,具体功能如下:
文生视频:基于用户的自然语言描述准确地生成相应视频内容。以 OpenAI 官方发布的范例视频为例,输入提示词:“一位时尚的女士漫步在东京街头,街上充满了温暖的霓虹灯和 生动的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子,手中提着一个黑色手提包。 她戴着太阳镜,涂着红色口红。走路时自信而随意。街道潮湿且反光,形成了彩色灯光的 镜面效果,许多行人来来往往。”输出作品参考下图。
图生视频:基于用户提供的参考图片及文本指令,衍生出视频内容。
视频扩展:Sora 具备了能够将视频沿着时间线向过去或未来扩展的功能。即从一个生成视频的片段出发,向时间的倒退或前进方向进行延伸,从而生成视频的开头或结尾部分。
视频拼接:用户可以使用 Sora 在两个输入视频之间逐渐进行插入补充视频,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。
视频编辑:Sora 可以将用户输入的基础视频,基于用户的文本指令,在零样本的情况下改变原视频的风格、环境、拍摄手法等。
图像生成:根据给出的文本提示,Sora 可通过将高斯噪点的补丁安排在一个空间网格中, 时间维度设为单一帧,进而生成不同尺寸的图像,分辨率最高可达 2048x2048。例如下列图片的提示词为“一个女人在秋天的特写肖像,每一个细节都被捕捉得淋漓尽致,浅景深 的应用使得主体脱颖而出”,“充满生机的珊瑚礁吸引了五颜六色的鱼类和海洋生物”。
Sora 有何优势?视频质量优势显著,突破视频时长及镜头切换限制
Sora 生成视频质量较 Pika、Runway 具有显著优势。相较于 Pika、Runway 等之前的 AI 文生视频工具,Sora 除了拥有视频向前扩展、视频拼接等功能外,还可以通过多镜头等方 式生成相较于其他 AI 文生视频工具更加复杂的视频,同时在时长、流畅度以及逻辑性方面 表现出了显著的优势,并且初步具备了理解和模拟真实物理世界的能力。OpenAI 认为,视 频生成模型是构建通用物理世界模拟器的一条有前景的道路,它使人工智能理解和模拟运 动中的物理世界,迈向了一个新的高度。Sora 的发布也意味着 AGI 有望加速到来,是 AGI 实现过程里的重大里程碑事件,而不仅仅只是视频生成。Sora 具体优势如下:
突破视频时长及镜头切换限制:由于受到 AI 算法和学习能力的限制,RunWay、Pika 等之 前的头部 AI 文生视频工具,无法完成镜头切换后的衔接,因此生成的作品往往都局限于 10 秒内的单一镜头视频。而 Sora 不仅可以实现不同镜头之前流畅的切换,还能生成 60 秒的 超长视频。
更加自由的视频尺寸:基于 OpenAI 公布的 Sora 技术报告,Sora 模型可以生成 1920x1080 与 1080x1920 之间所有尺寸的视频。而 Runway Gen2,仅支持长宽比为 4:3、3:4、16:9、 9:16、1:1、21:9 的视频。
背景角色稳定:过往的 AI 文生视频工具通常会出现背景角色不稳定的情况,即在背景中有 许多的人或动物的情况下,画面经常出现失真、混乱的情况。而这个问题在 Sora 的视频中 也得到了改善,以“东京漫步的女士”视频为例,在 Runway 中输入同样的提示词后,背 景人物会做出一些怪异的走路姿势,而 Sora 视频中背景角色表现非常稳定。
理解和模拟真实世界:由于 Sora 初步具备了理解和模拟真实世界的能力,因此 Sora 生成 的视频通常具备一些新兴特征,主要包括 3D 一致性、物体持久性、模拟物理交互等,这些 特征也使得 Sora 生成的视频更加的生动、逼真。
报告共计:16页
来源:人工智能学派