毫不夸张地说,当我第一次看到 Sora 生成的前几个视频时,我的下巴都惊掉了。
Sora是什么?
Sora 是一种人工智能模型,可以根据简单的文本提示生成视频。它能够生成一分钟的高保真视频。
Sora 是一种扩散模型,一种先进的人工智能技术,具有独特的“学习”方式。扩散模型从清晰的数据开始,例如图像或视频。然后他们逐渐添加噪音,直到原始内容被掩盖。
它们的核心在于逆转这个过程——逐步学习去除噪声,直到恢复原始数据。这创建了一个可以生成现实结果的人工智能系统。
为了引导 Sora,它使用 GPT(ChatGPT 背后的技术)将简单的文本提示扩展为为视频生成量身定制的详细描述。这确保即使您简短的想法也能转化为视觉丰富、准确的结果。
这是几个例子
让我们切入正题——这里有一些提示和示例视频,展示了 Sora 的非凡能力。
提示:镜头跟随一辆带有黑色车顶行李架的白色老式SUV,它在陡峭的山坡上一条被松树环绕的陡峭土路上加速行驶,轮胎扬起灰尘,阳光照射在SUV上行驶土路,给整个场景投射出温暖的光芒。土路缓缓地蜿蜒延伸至远方,看不到其他汽车或车辆。道路两旁都是红杉树,零星散落着一片片绿意。从后面看,这辆车轻松地沿着曲线行驶,看起来就像是在崎岖的地形上行驶。土路周围是陡峭的丘陵和山脉,上面是清澈的蓝天和缕缕云彩。
提示:一个 60 多岁、头发花白、留着胡须的男人的极端特写,他坐在巴黎的一家咖啡馆里,沉思着思考宇宙的历史,他的目光聚焦在银幕外的人们身上。走路时他几乎一动不动,穿着羊毛大衣西装外套,搭配纽扣衬衫,戴着棕色贝雷帽,戴着眼镜,一副非常教授的样子,最后他露出一个微妙的闭嘴微笑,仿佛他找到了生命之谜的答案,灯光非常电影化,金色的光芒,背景是巴黎的街道和城市,景深,电影化的35mm胶片。
这些例子已经比竞争对手的能力要好得多。
请记住,这些都不是精心挑选的。 OpenAI 的首席执行官 Sam Altman 正在积极接受并分享 X 上的即时请求。
Sora 可以为 DALL-E 图像制作动画
除了根据文本描述生成视频之外,Sora 还能够以图像作为输入生成视频。
提示:一只戴着贝雷帽、穿着黑色高领毛衣的柴犬。
有了这个功能,我们可以预期 Sora 将来会集成到 ChatGPT 中。
Sora可以生成图像
我注意到没有很多人在谈论这个功能。 Sora 还能够生成图像
它的工作原理是在时间范围为一帧的空间网格中排列高斯噪声块。该模型可以生成各种尺寸的图像,分辨率高达 2048 x 2048。
这里有些例子:
提示:雪山村庄,拥有舒适的小屋和北极光显示屏,高细节和逼真的数码单反相机,50mm f/1.2
示例图像看起来甚至比 Dall-E 3 生成的图像还要好。
更多 Sora 功能
当进行大规模训练时,视频模型可以生成有趣的新兴功能,如下所示:
- 3D 一致性: Sora 可以生成具有动态摄像机运动的视频。
- 远程连贯性和物体持久性: Sora 可以在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观。
- 与世界互动: Sora 有时可以用简单的方式模拟影响世界状态的动作。
- 模拟数字世界: Sora 还能够模拟人工过程;电子游戏就是一个例子。
您可以使用 Sora 进行的另一个有趣的实验是从视频生成 3D 模型。 X 用户metamike通过使用Poly.cam工具将圣托里尼岛视频转换为 3D 场景来演示这一点。
此外,与许多人工智能模型一样,Sora 反映了其大量人类生成的训练数据的偏见和局限性。
哦,说到训练模型,人工智能行业目前的一个争论是,人工智能公司是否应该对那些工作用于训练的人给予认可和补偿。
技术正在飞速发展,而法规却滞后。
谁有麻烦了?
如果有人应该害怕人工智能,那就是电影制片厂的高管和股东。当任何能够访问互联网的人只需在人工智能中输入提示即可创建并分享整部电影时,电影和电视行业的看门人几乎肯定会完全过时。
虽然他们目前的目标是利用人工智能取代人类创造力,但这可能会给他们带来适得其反的效果。俗话说,种的是风,收获的是旋风。
你也应该担心吗?
不惧怕变化、抓住机遇的聪明人永远不会被取代。
最后的想法
随着 Google 的 Gemini 1.5 和 OpenAI 的 Sora 的发布,这是人工智能世界中最疯狂的一周。
如果继续以这种惊人的速度取得进展,我们可能很快就能获得仅受我们想象力限制的逼真视频模拟器。这些应用程序可能在电影、游戏、内容创作等许多行业中具有开创性和颠覆性。