斯坦福大学李飞飞教授分享：只有计算机和机器人具备空间智能，人工智能的潜力才能得到充分发挥

在最近李飞飞教授的TED演讲中，她深入探讨了空间智能对人工智能（AI）发展的深远影响。

今天，AI的发展也在经历类似的革命性变化。李飞飞教授回顾了计算机视觉的早期进展，介绍了她和团队在ImageNet上的努力，以及生成AI的突破，如扩散模型使AI能够根据人类提示生成新的照片和视频。

这次演讲不仅展示了AI在过去十年的惊人进步，也展望了未来，AI将成为人类的合作伙伴，共同探索和创造新世界。随着AI不断发展，它将不仅是有用的工具，还将是信任的伙伴，提升我们的生产力和人类尊严。

第一部分:视觉与智能的萌芽
让我向你们展示一些东西。准确地说,我将向你们展示无物。这是5.4亿年前的世界,纯粹的、无边无际的黑暗。它不是由于缺乏光线而黑暗,而是由于缺乏视觉能力而黑暗。尽管阳光能透射到1000米深的海底,热液口也在海底散发出一丝光亮,那里满是生命的气息,但在那古老的海水中,找不到一只眼睛的存在,没有视网膜、角膜、晶体。所以所有的光线、所有的生命都未被发现。曾经有一段时期,看见这个概念根本不存在,那纯粹是前所未有的。直到它出现了。出于我们刚刚开始理解的原因,三叶虫,第一种能感知光线的生物出现了。它们是第一批体验我们如今理所当然的现实的生物,第一个发现除了自己之外,还存在其他许多个体的生物,一个由众多个体组成的世界。据认为,视觉能力的出现导致了寒武纪大爆发,在这一时期,大量新的动物物种进入了化石记录。

起初,看见只是一种被动的体验,仅仅是让光线进入身体的简单行为。不久之后,它变得更加主动起来,神经系统开始演化,视觉变成了洞见,看见变成了理解,理解引发了行动,所有这一切最终导致了智力的诞生。如今,我们已不再满足于大自然赐予的视觉智能,好奇心促使我们创造机器,让它们像我们一样具有智能视觉,甚至更加优秀。

9年前,我在这个舞台上报告了计算机视觉这一人工智能分支的早期进展。当时,三股强大力量首次汇聚:一种叫做神经网络的算法家族;快速、专用的图形处理器硬件GPU;以及大数据,比如我们研究小组耗费数年整理的1500万张图像数据集ImageNet。它们共同拉开了现代人工智能时代的大幕。我们已取得了长足进步,那时,给图像贴上标签就是一大突破,但这些算法的速度和准确性都在迅猛提高。由我的实验室主导的ImageNet年度挑战赛成为衡量这一进展的试金石,你在这个图表上看到的,就是年度改进情况和重要模型。

我们更进一步,创造出能够分割物体、或预测其动态关联的算法,这是我的学生和合作者完成的研究工作。还有更多,你们还记得上次我展示的第一个能用自然语言描述图片的计算机视觉算法吗?那是我与才华横溢的前学生Andrej Karpathy合作完成的。当时我铤而走险地说:"安德烈,我们能不能创造出反向的计算机算法?"安德烈说:"哈哈,那是不可能的。"不过看看这条推文,最近这"不可能"变成了可能。这全靠扩散模型家族驱动的当代生成式人工智能算法,它能将人类的语句提示转化为全新事物的图像和视频。

你们中的许多人可能看过OpenAI最近推出大获成功的SORA系统。但就算没有庞大的GPU资源,我的学生和合作者也在SORA之前几个月开发出了一种叫WALT的生成式视频模型,你现在看到的就是一些结果。这还需要改进的空间,看看那只猫的眼睛,以及它如何在水下翻滚却身上依旧干燥,真是一个"猫"啰子的灾难啊。(笑声)但过去的经验也预示着未来,我们必将从这些错误中汲取教训,创造我们设想的未来。在那个未来里,我们希望人工智能尽其所能为我们服务,或是为我们提供帮助。多年来,我一直在说拍照片和真正看懂并理解是两回事。

第二部分:空间智能引领人工智能新纪元
今天,我想在此基础上补充一点。单单看见是不够的。看见是为了行动和学习。当我们在三维空间和时间里与这个世界互动时,我们学习,并学会更好地看和做。大自然创造了这个由"空间智能"驱动的看与做的良性循环。为了向你们演示你们的空间智能是如何不断运作的,看看这张图片。如果你们有一种想要做些什么的冲动,请举手。(笑声)在最后那短短一瞬间,你们的大脑看到了这个玻璃杯的几何形状,它在三维空间中的位置,它与桌子、猫咪以及其他一切的关系。你们能预测接下来会发生什么。

对行动的渴望是所有拥有空间智能生物与生俱来的本能,它将感知与行为联系在一起。如果我们想推进人工智能超越目前的能力,我们需要的不只是能看和讲话的人工智能,我们需要的是能够行动的人工智能。事实上,我们在这方面取得了令人兴奋的进展。空间智能最新的里程碑就是教会计算机看、学习、行动,并学会更好地看和行动。

这并不容易。大自然用了数百万年的进化才形成了空间智能,它依赖于眼睛接收光线,在视网膜上投射二维图像,然后大脑将这些数据转化为三维信息。直到最近,一群谷歌的研究人员才设法开发出一种算法,可以将一堆照片翻译成三维空间,就像我们在这里展示的这些例子。我的学生和合作者更进一步,创造了一种算法,可以将一张输入图像转化为三维形状,这里有更多的例子。

还记得我们讨论过那些能将人类语句转化为视频的计算机程序吗?密西根大学的一组研究人员设法找到了一种方式,将语句一行翻译成三维房间布局,就像这里展示的。斯坦福大学的同事及其学生也开发出一种算法,它可以从一张图像入手生成无限种看似合理的空间供观众探索。这些都是未来可能性的初萌之芽。在那个未来,人类可以将整个世界转化为数字形式,并模拟其丰富多彩、细微入微的本质。大自然是以内隐的方式赋予了我们个人思维空间智能,而空间智能技术则有望为我们的集体意识做同样的事情。随着空间智能的进展加速,这个良性循环正在我们眼前进入一个新时代。这种互馈正在催化机器人学习,这是任何需要理解并与三维世界互动的体现智能系统的关键组成部分。十年前,我们实验室的ImageNet数据库为训练计算机视觉提供了数百万张高质量照片。

如今,我们正在做同样的事情,收集行为和动作来训练计算机和机器人如何在三维世界中行动。但与收集静态图像不同,我们开发了由三维空间模型驱动的模拟环境,使计算机拥有了无限种可能性去学习如何行动。你们看到的只是我们实验室名为"行为"的项目中用于教授机器人的一小部分例子。

我们在机器人语言智能方面也取得了令人兴奋的进展。利用基于大语言模型的输入,我的学生和合作者属于最先展示出机器人手臂可根据语音指令执行各种任务的团队,比如打开这个抽屉或断开充电手机的连接,或者使用面包、生菜、番茄制作三明治,甚至还为用户摆上了餐巾纸。不过我通常会希望三明治内馅更丰富一些,但这已是个不错的开端。

在那原始的海洋,在我们的古老时代,能够看见并感知环境的能力引发了与其他生命形式互动的寒武纪大爆发。

第三部分:空间智能助力美好未来
如今,那光亮正接近数字化的心智。空间智能正让机器不仅能与彼此互动,也能与人类以及三维世界互动,无论是真实还是虚拟的。随着这个未来正在成形,它将对许多生活产生深远影响。

让我们以医疗保健为例。在过去十年里,我的实验室一直在采取一些最初的步骤,将人工智能应用于解决影响病人预后和医护人员倦怠的挑战。与斯坦福医学院和合作医院的伙伴们合作,我们正在试点使用智能传感器,可以检测到医护人员未正确洗手就进入病房,或跟踪手术器械,或在病人有跌倒风险时提醒护理团队。我们将这些技术视为一种环境智能,就像额外的眼睛,能产生实质性影响。

但我希望为我们的病人、医生和护理人员提供更多互动式帮助,他们都渴望有一双"外援之手"。想象一下,自主机器人运送医疗用品,使护理人员能集中精力照顾病人;增强现实引导外科医生进行更安全、更快速、低风险的手术;或想象患有严重瘫痪的病人用意念控制机器人,是的,用脑电波来执行我们理所当然的日常任务。你们刚才看到的就是我实验室最近的一项试点研究,给你们一个未来的预览。在这段视频里,机器人手臂正在烹饪一份日式牛肉火锅料理,仅仅受脑电信号的控制,这些信号是无创地通过脑电图仪采集的。

谢谢。视觉在5亿年前的出现彻底颠覆了那个黑暗的世界,引发了最深刻的进化进程:动物世界的智力发展。人工智能在过去十年取得的惊人进展同样令人震惊。但我相信,这场数字寒武纪大爆发的全部潜力只有在我们赋予计算机和机器人空间智能后才能完全释放,就像大自然赋予了我们每个人一样。

现在正是教导我们的数字伙伴学会思考和推理、与我们所称为家园的这个三维美丽空间互动的令人兴奋的时刻,同时也创造更多新世界供我们一同探索。要实现这个未来并非易事,需要我们谨慎行事,开发以人为本的技术。但只要我们做好了这一切,受空间智能驱动的计算机和机器人不仅将成为实用工具,更将成为值得信赖的伙伴以增强和提高我们的生产力和人性,同时尊重个人尊严,推动我们的集体繁荣。

最让我对未来充满期待的是,届时人工智能将变得更加富有洞察力、更加空间智能化,他们将加入我们的行列,永不停歇地追求更美好的方式来打造一个更美好的世界。