上班前夕迎来大新闻,那就是Sora了,Sora是什么,有什么牛逼之处,怎么实现的,我们跟着官方文档透露出来的一点点信息,简单的捋一捋。
一、Sora是什么
官方给出的定义是:世界模拟器。这很明显有夸大的成分,实际一点来说Sora就是OpenAI用GPT的能力将视频文本对齐,通过将多个高分辨率视频素材进行降维处理,然后密集训练,最后大力出奇迹,达到你想看什么就生成什么视频的效果。
二、Sora为什么受追捧
第一个牛逼之处是持久。虽然文生视频已不是新鲜事,但相比于Sora,此前的文生视频大模型所能生成的视频时间很短。比如去年Pika Labs发布的Pika 1.0曾轰动一时,但只能生成3秒以内的视频。而Sora生成的视频足足1分钟,基本达到了实际使用的要求,毕竟某音上很多小姐姐的视频还达不到1分钟。
第二就是连贯。视频内容的语义连贯性已经非常完美,前景、背景的镜头感和融合程度非常好,甚至连光影、物理碰撞都有模有样。它已经很好的模拟了真实世界中的物理规则,已经不是不是文生图这样的小玩意儿了,来看个例子吧。
title_0
三、训练过程
关于算法的信息,作者只公布了一点点信息,任何细节都没有透露,我们只能根据只言片语大概得还原一下训练过程。
1.把图像数据转化为 patches(也许可以翻译成面片),patches是从LLM里面得到的灵感,相当于LLM中的token,作者使用Visual Patches来统一不同尺寸的视频。因为视频就是图片帧序列,Visual Patches的的维度应该和视频帧数相关。
2.为了统一不通过尺度和时长的视频,作者训练了一个视频压缩网络,将视频压缩成统一且低纬度的特征表示。
3.将2中的特征送入一个diffusion transformer模型(具体结构未知)中进行编解码,编码阶段得到类似Transformer中token的Spacetime latent patches(时空隐补丁?实在不会翻译),解码阶段生成“干净的”patches。既然是diffusion 模型,编解码的过程中可定会掺入提示词的token和随机马赛克。
四、视频数据
1.使用大分辨率视频进行训练:第一个好处:抽样的灵活性,Sora可以采样宽屏1920x1080p视频,垂直1080x1920视频以及介于两者之间的所有视频。所有的尺寸都使用相同的模型。
sampling_0
sampling_2
2.使用完整的视频进行训练:作者发现这样可以改善构图,使视频的语义更统一,传统做法是将最视频进行随机的裁剪成正方形或者矩形,这样有可能丢掉很多内容,是语义不完整,像下面着这样,左面的是传统的财裁剪方式,右面是作者使用的方式。
sampling_3
sampling_4
五、文本数据
1.训练了一个高度描述性的字幕模型,然后使用它为训练集中的所有视频生成文本字幕。作者发现,对高度描述性的视频字幕进行训练可以提高文本保真度以及视频的整体质量。
2.利用GPT将简短的用户提示转换为更长的详细字幕,并将其发送到视频模型。这使得Sora能够准确地按照用户提示生成高质量的视频。
关于模型和数据的介绍官方只放出这么多,其实也没有什么颠覆性的创新,也许是压箱底的东西没有拿出来?但从这些信息来看,只能用四个字来形容:力大砖飞
六、还能做什么
除了文本生成视频,Sora还有很多玩法:
(1)图片+prompt生成视频
prompting_1
(2)扩展视频:Sora还能够在时间上向前或向后扩展视频。下面是四个视频,它们都是从一个生成的视频片段开始向后扩展的。因此,这四个视频的开始都不同,但四个视频的结局都是一样的。
extend_1
extend_2
extend_4
(3)编辑视频:根据prompt修改视频的内容
base
0
(4)拼接视频:Sora可以在两个输入视频之间进行插帧,在具有完全不同主题和场景构图的视频之间创建无缝过渡。在下面的例子中,中间的视频在左边和右边对应的视频之间插入。
a0
a1
a2
七、涌现的能力
除此之外Sora还有许多有趣的突发能力,类似于“涌现”。
比如Sora可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中始终如一地移动。
simulation_0
Sora经常(虽然不是总是)能够有效地为短期和长期依赖关系建模。例如,模型可以保存人物、动物和物体,即使它们被遮挡或离开了框架。同样,它可以在单个样本中生成同一角色的多个镜头,在整个视频中保持其外观。
simulation_2
Sora有时可以用简单的方式模拟影响世界状态的行为。例如,画家可以在画布上留下新的笔触,随着时间的推移,或者一个人吃汉堡时留下咬痕。
simulation_5
Sora还能够模拟人工过程,比如视频游戏。Sora可以在高保真度渲染世界及其动态的同时,用基本策略控制《我的世界》中的玩家。
simulation_6
八、写在最后
其实Sora还有很多不足,它不能准确地模拟许多基本相互作用的物理过程,比如玻璃破碎。就连官方也给出了“自黑”视频。
但我认为国人的重点不应该放在Sora生成的视频好或者不好,也不用提多少行业会被颠覆。而是应该冷静思考一下,为什么别人家的公司在这么短的时间内能做出如此震惊世界的产品。
确实我们在很多领域正以肉眼可见的速度追赶世界一流水平,包括各类顶会也越来越多国人的身影。这是好事,但在我看来,我们在人工智能领域与世界顶尖水平的差距确实越来越远了,无论软件还是硬件。
努力吧!希望下次引爆朋友圈的是我们自己的公司,而不是盯着别人的东西土嗨。