目录
01. OpenAI王炸级产品视频生成模型Sora发布
02. Sora发布的潜在影响
▎C端 / 对于普通人
▎B端 / 对于商业公司
03. 该如何看待Sora?
1.拥抱变化,让自己成为身边最懂AI的人
2.想象自己是一家一人公司的创始人
3.保持好奇心,放大兴趣
最后
01. OpenAI王炸级产品视频生成模型Sora发布
人工智能(AI)行业又迎来了疯狂、震撼的一夜。
北京时间2月16日凌晨2点左右,美国OpenAI公司正式发布其首个文本-视频生成模型Sora。
据悉,通过简短或详细的提示词描述,或一张静态图片,Sora就能生成类似电影的逼真场景,涵盖多个角色、不同类型动作和背景细节等,最高能生成1分钟左右的1080P高清视频。
这是继Runway、Pika、谷歌和Meta之后,OpenAI正式加入到这场AI视频生成领域“战争”当中,同时也是GPT、DALL·E之后,2024年 OpenAI发布的旗下最新、最重要的AI产品系列。
OpenAI强调,“Sora是能够理解和模拟现实世界的模型的基础,我们相信这一功能将成为实现通用人工智能(AGI)的重要里程碑。”
更早之前,昨夜23点,谷歌突然升级Gemini系列模型,并发布用于早期测试的Gemini 1.5第一个版本——Gemini 1.5 Pro,采用稀疏MOE架构,性能和长文本技术都超过了GPT-4 Turbo。
从Sora到Gemini,所有人都在感叹:行业真的变天了,AI快要把人类KO了;好莱坞的时代真的要结束了?
OpenAI今晨公布的首个视频生成模型Sora,采用一种名为扩散模型的技术(diffusion probabilistic models)。而且,与GPT模型类似,Sora也使用了Transformer 架构,并完美继承DALL·E 3的画质和遵循指令能力,生成的视频一开始看起来像静态噪音,然后通过多个步骤去除噪音,逐步转换视频。
对于初学者来说,Sora可以生成各种风格的视频(例如,真实感、动画、黑白),最长可达一分钟 —— 比大多数文本-视频模型要长得多。
这些视频保持了合理的连贯性。相比其他AI视频模型,Sora视频生成质量好多了,更让人“舒服”——没有出现“人工智能怪异”类场景。
比如,AI想象中的“龙年春节”,Sora能形成紧跟舞龙队伍抬头好奇的儿童,也能生成海量人物角色各种行为。
输入 prompt(提示词):一位24岁女性眨眼的极端特写,在魔法时刻站在马拉喀什,70毫米拍摄的电影,景深,鲜艳的色彩,电影效果。
输入 prompt(提示词):一朵巨大、高耸的人形云笼罩着大地。云人向大地射出闪电。
输入 prompt(提示词):几只巨大的毛茸茸的猛犸象踏着白雪皑皑的草地走近,它们长长的毛茸茸的皮毛在风中轻轻飘动,远处覆盖着积雪的树木和雄伟的雪山,午后的阳光下有缕缕云彩,太阳高高地挂在空中距离产生温暖的光芒,低相机视角令人惊叹地捕捉到大型毛茸茸的哺乳动物,具有美丽的摄影和景深效果。
通过这些动图来看,Sora不仅可以在单个视频中创建多个镜头,而且还可以依靠对语言的深入理解准确地解释提示词,保留角色和视觉风格。
当然,Sora也存在一些弱点,OpenAI表示,它可能难以准确模拟复杂场景的物理原理;可能无法理解因果关系;还可能混淆提示的空间细节;可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹等。
但瑕不掩瑜,Sora不仅能模拟真实世界,而且包括学习了摄影师和导演的表达手法,将AI视频惟妙惟肖地展现出来。
因此,Sora已经成为了目前最强的AI视频生成类模型。
02. Sora发布的潜在影响
▎C端 / 对于普通人
•这或许是独立创作者最好的年代,Sora发布之后,文案、音效、视频AI生成的可用工具都已齐备,一个人可以无痛carry一个短片,好故事将价值千金,有才华的人更难被埋没。但是从另一个角度将,创作门槛降低之后故事的竞争将异常激烈。
•以vision pro为代表的XR产业将再次获得助力——内容匮乏将不再是问题。
•目前当红的短视频推荐的形态可能会发生改变——从系统根据用户喜好推荐短视频,变成针对性生成短视频?或者说,同一个短视频在不同的用户对可以有不同的(实时)微调版本?
▎B端 / 对于商业公司
•所有做AI视频生成的公司将面临第一波危机,但是危中有机。因为OpenAI证明了用大模型的思路做视频是可行的,那么他们需要做的只是证明我也可以用大模型做视频。参考chatGPT火了之后做大语言模型的公司反而更多了而不是更少。
•AI三维生成的公司将面临第二波冲击,由于多目重建技术的存在,视频生成和3D生成的界限是模糊的。所以3D生成可能要重新考虑当前技术路线的合理性和商业叙事逻辑。
•虽然OpenAI没有明说,但是Sora需要的算力不会小,所以显卡公司会迎来新的一波利好,但是不一定利好英伟达。因为现在算力越来越呈现基础设施的特征,而基础设施是各个国家的命脉,即便不考虑禁运,我国不会是唯一一个要求算力自主可控的国家,甚至每个大厂都开始想自己搞显卡或者AI专用算力卡(参考google、特斯拉、openAI、阿里),所以算力领域的竞争者会越来越多。
03. 该如何看待Sora?
1.拥抱变化,让自己成为身边最懂AI的人
拥抱变化,在我看来,这不是一句鸡汤,而是面对变革浪潮来临时的态度。我经常举纽约灯夫的例子,就是恐慌的灯夫永远也无法阻挡电的普及。所以第一批的灯夫,其实都果断的转行,有的去卖灯具,有的去做变电站,有的去做各种电器,后来才有了微波炉、洗衣机、电视机。从电的出现到纽约市最后两个灯夫下岗,中间持续了差不多30年。
作为个体,我们去寻找AI里的机会,别盯着现在AI的不足去吐槽。比如,你挑出现在AI视频里再多的风险、再多的毛病,都不如你试着借助AI用你家宠物的照片生成一个短视频。哪怕漏洞百出,你也能在不停地改变指令的过程中,变成一个能用好AI的人。
我给大家建议一个小的填空题,就是树立个小目标,句式是这样的:“我要努力成为公司里或者班上或者家里或者朋友圈里最会用AI做什么的人”。比如,我们可以这么说:“我要努力成为朋友圈里最会用AI做旅游游记视频的人”。也许等你做到第20个旅游视频的时候,你就成为AI时代的旅游视频博主了。
2.想象自己是一家一人公司的创始人
一人公司,顾名思义,就是一个人。你不一定自己真创业,但是你可以想象自己注册了一家公司,这公司只有你一个人。那么你的这个公司可以从事什么领域的业务,就是你要去研究的方向。
别把这个想象得太难或者太高大上,你只要观察自己的工作和生活中,有哪些地方存在痛点或者是自己擅长的,那么就肯定存在机会。如果你工作中经常要用PPT做报告,那么你就可以设想自己注册了一家PPT制作公司,只不过从文案到策划到PPT设计只有你一个人而已。当你把自己做一个PPT的流程按照公司的逻辑拆开之后,你就知道该如何使用AI了。比如让ChatGPT或者文心一言写大纲,让Midjourney画背景图,让PowerPoint直接从大纲生成幻灯片。当你成为身边最会做PPT的人,这个标签就能给你带来收益。
3.保持好奇心,放大兴趣
AI普及之后,它并不能帮你提升已经达到80分的能力,但是它可以帮你做那些你并不擅长的事情。例如我有画面感和想象力,却毫无画画的能力,我就可以在AI的帮助下一起创作出很好看的画面。
一样的AI工具,你会发现不同人使用出来的威力是截然不同的,这比拼的是人和AI结合的能力。我们往后推演,按照 Sora这种发展,也许今年就可以实现一个功能,就是用指令直接复现电影里的经典镜头。
比如,我就可以写一句“用黑客帝国的子弹时间风格,让罗胖像里面的尼奥一样下腰躲过子弹”。这里面考验的是什么?是要看过黑客帝国这部电影。
印度有位著名导演叫塔西姆·辛,作品非常有创意,拍广告开价也很高。有一回,客户吐槽他说,你就拍一个30秒的广告,要收好几百万美元,说得过去吗?
塔西姆·辛是怎么回答的?他说,你花钱买到的不只是我做导演的这段时间,还有我喝过的每一口酒,品过的每一杯咖啡,吃过的每一餐美食,读过的每一本书,坐过的每一把椅子,谈过的每一次恋爱,去过的每一个地方。你买的是我全部生命的精华转化成的30秒,怎么会不贵?
所以,无论你刷过几百部电影,还是刷过几百部动画剧集,放在以前就是不务正业,放在现在就可能成为你的爆发点,兴趣是最好的学习驱动力。
最后
今天就这些,不过在最后还是要补一句,Sora虽然很厉害,但整个人工智能对更多行业的改造还在非常初级的阶段,焦虑的情绪毫无用处,我们一起把AI用起来。