斯坦福大学李飞飞教授分享:只有计算机和机器人具备空间智能,人工智能的潜力才能得到充分发挥

在最近李飞飞教授的TED演讲中,她深入探讨了空间智能对人工智能(AI)发展的深远影响。

今天,AI的发展也在经历类似的革命性变化。李飞飞教授回顾了计算机视觉的早期进展,介绍了她和团队在ImageNet上的努力,以及生成AI的突破,如扩散模型使AI能够根据人类提示生成新的照片和视频。

这次演讲不仅展示了AI在过去十年的惊人进步,也展望了未来,AI将成为人类的合作伙伴,共同探索和创造新世界。随着AI不断发展,它将不仅是有用的工具,还将是信任的伙伴,提升我们的生产力和人类尊严。

第一部分:视觉与智能的萌芽
让我向你们展示一些东西。准确地说,我将向你们展示无物。这是5.4亿年前的世界,纯粹的、无边无际的黑暗。它不是由于缺乏光线而黑暗,而是由于缺乏视觉能力而黑暗。尽管阳光能透射到1000米深的海底,热液口也在海底散发出一丝光亮,那里满是生命的气息,但在那古老的海水中,找不到一只眼睛的存在,没有视网膜、角膜、晶体。所以所有的光线、所有的生命都未被发现。曾经有一段时期,看见这个概念根本不存在,那纯粹是前所未有的。直到它出现了。出于我们刚刚开始理解的原因,三叶虫,第一种能感知光线的生物出现了。它们是第一批体验我们如今理所当然的现实的生物,第一个发现除了自己之外,还存在其他许多个体的生物,一个由众多个体组成的世界。据认为,视觉能力的出现导致了寒武纪大爆发,在这一时期,大量新的动物物种进入了化石记录。

起初,看见只是一种被动的体验,仅仅是让光线进入身体的简单行为。不久之后,它变得更加主动起来,神经系统开始演化,视觉变成了洞见,看见变成了理解,理解引发了行动,所有这一切最终导致了智力的诞生。如今,我们已不再满足于大自然赐予的视觉智能,好奇心促使我们创造机器,让它们像我们一样具有智能视觉,甚至更加优秀。

9年前,我在这个舞台上报告了计算机视觉这一人工智能分支的早期进展。当时,三股强大力量首次汇聚:一种叫做神经网络的算法家族;快速、专用的图形处理器硬件GPU;以及大数据,比如我们研究小组耗费数年整理的1500万张图像数据集ImageNet。它们共同拉开了现代人工智能时代的大幕。我们已取得了长足进步,那时,给图像贴上标签就是一大突破,但这些算法的速度和准确性都在迅猛提高。由我的实验室主导的ImageNet年度挑战赛成为衡量这一进展的试金石,你在这个图表上看到的,就是年度改进情况和重要模型。

我们更进一步,创造出能够分割物体、或预测其动态关联的算法,这是我的学生和合作者完成的研究工作。还有更多,你们还记得上次我展示的第一个能用自然语言描述图片的计算机视觉算法吗?那是我与才华横溢的前学生Andrej Karpathy合作完成的。当时我铤而走险地说:"安德烈,我们能不能创造出反向的计算机算法?"安德烈说:"哈哈,那是不可能的。"不过看看这条推文,最近这"不可能"变成了可能。这全靠扩散模型家族驱动的当代生成式人工智能算法,它能将人类的语句提示转化为全新事物的图像和视频。

你们中的许多人可能看过OpenAI最近推出大获成功的SORA系统。但就算没有庞大的GPU资源,我的学生和合作者也在SORA之前几个月开发出了一种叫WALT的生成式视频模型,你现在看到的就是一些结果。这还需要改进的空间,看看那只猫的眼睛,以及它如何在水下翻滚却身上依旧干燥,真是一个"猫"啰子的灾难啊。(笑声)但过去的经验也预示着未来,我们必将从这些错误中汲取教训,创造我们设想的未来。在那个未来里,我们希望人工智能尽其所能为我们服务,或是为我们提供帮助。多年来,我一直在说拍照片和真正看懂并理解是两回事。

第二部分:空间智能引领人工智能新纪元
今天,我想在此基础上补充一点。单单看见是不够的。看见是为了行动和学习。当我们在三维空间和时间里与这个世界互动时,我们学习,并学会更好地看和做。大自然创造了这个由"空间智能"驱动的看与做的良性循环。为了向你们演示你们的空间智能是如何不断运作的,看看这张图片。如果你们有一种想要做些什么的冲动,请举手。(笑声)在最后那短短一瞬间,你们的大脑看到了这个玻璃杯的几何形状,它在三维空间中的位置,它与桌子、猫咪以及其他一切的关系。你们能预测接下来会发生什么。

对行动的渴望是所有拥有空间智能生物与生俱来的本能,它将感知与行为联系在一起。如果我们想推进人工智能超越目前的能力,我们需要的不只是能看和讲话的人工智能,我们需要的是能够行动的人工智能。事实上,我们在这方面取得了令人兴奋的进展。空间智能最新的里程碑就是教会计算机看、学习、行动,并学会更好地看和行动。

这并不容易。大自然用了数百万年的进化才形成了空间智能,它依赖于眼睛接收光线,在视网膜上投射二维图像,然后大脑将这些数据转化为三维信息。直到最近,一群谷歌的研究人员才设法开发出一种算法,可以将一堆照片翻译成三维空间,就像我们在这里展示的这些例子。我的学生和合作者更进一步,创造了一种算法,可以将一张输入图像转化为三维形状,这里有更多的例子。

还记得我们讨论过那些能将人类语句转化为视频的计算机程序吗?密西根大学的一组研究人员设法找到了一种方式,将语句一行翻译成三维房间布局,就像这里展示的。斯坦福大学的同事及其学生也开发出一种算法,它可以从一张图像入手生成无限种看似合理的空间供观众探索。这些都是未来可能性的初萌之芽。在那个未来,人类可以将整个世界转化为数字形式,并模拟其丰富多彩、细微入微的本质。大自然是以内隐的方式赋予了我们个人思维空间智能,而空间智能技术则有望为我们的集体意识做同样的事情。随着空间智能的进展加速,这个良性循环正在我们眼前进入一个新时代。这种互馈正在催化机器人学习,这是任何需要理解并与三维世界互动的体现智能系统的关键组成部分。十年前,我们实验室的ImageNet数据库为训练计算机视觉提供了数百万张高质量照片。

如今,我们正在做同样的事情,收集行为和动作来训练计算机和机器人如何在三维世界中行动。但与收集静态图像不同,我们开发了由三维空间模型驱动的模拟环境,使计算机拥有了无限种可能性去学习如何行动。你们看到的只是我们实验室名为"行为"的项目中用于教授机器人的一小部分例子。

我们在机器人语言智能方面也取得了令人兴奋的进展。利用基于大语言模型的输入,我的学生和合作者属于最先展示出机器人手臂可根据语音指令执行各种任务的团队,比如打开这个抽屉或断开充电手机的连接,或者使用面包、生菜、番茄制作三明治,甚至还为用户摆上了餐巾纸。不过我通常会希望三明治内馅更丰富一些,但这已是个不错的开端。

在那原始的海洋,在我们的古老时代,能够看见并感知环境的能力引发了与其他生命形式互动的寒武纪大爆发。

第三部分:空间智能助力美好未来
如今,那光亮正接近数字化的心智。空间智能正让机器不仅能与彼此互动,也能与人类以及三维世界互动,无论是真实还是虚拟的。随着这个未来正在成形,它将对许多生活产生深远影响。

让我们以医疗保健为例。在过去十年里,我的实验室一直在采取一些最初的步骤,将人工智能应用于解决影响病人预后和医护人员倦怠的挑战。与斯坦福医学院和合作医院的伙伴们合作,我们正在试点使用智能传感器,可以检测到医护人员未正确洗手就进入病房,或跟踪手术器械,或在病人有跌倒风险时提醒护理团队。我们将这些技术视为一种环境智能,就像额外的眼睛,能产生实质性影响。

但我希望为我们的病人、医生和护理人员提供更多互动式帮助,他们都渴望有一双"外援之手"。想象一下,自主机器人运送医疗用品,使护理人员能集中精力照顾病人;增强现实引导外科医生进行更安全、更快速、低风险的手术;或想象患有严重瘫痪的病人用意念控制机器人,是的,用脑电波来执行我们理所当然的日常任务。你们刚才看到的就是我实验室最近的一项试点研究,给你们一个未来的预览。在这段视频里,机器人手臂正在烹饪一份日式牛肉火锅料理,仅仅受脑电信号的控制,这些信号是无创地通过脑电图仪采集的。

谢谢。视觉在5亿年前的出现彻底颠覆了那个黑暗的世界,引发了最深刻的进化进程:动物世界的智力发展。人工智能在过去十年取得的惊人进展同样令人震惊。但我相信,这场数字寒武纪大爆发的全部潜力只有在我们赋予计算机和机器人空间智能后才能完全释放,就像大自然赋予了我们每个人一样。

现在正是教导我们的数字伙伴学会思考和推理、与我们所称为家园的这个三维美丽空间互动的令人兴奋的时刻,同时也创造更多新世界供我们一同探索。要实现这个未来并非易事,需要我们谨慎行事,开发以人为本的技术。但只要我们做好了这一切,受空间智能驱动的计算机和机器人不仅将成为实用工具,更将成为值得信赖的伙伴以增强和提高我们的生产力和人性,同时尊重个人尊严,推动我们的集体繁荣。

最让我对未来充满期待的是,届时人工智能将变得更加富有洞察力、更加空间智能化,他们将加入我们的行列,永不停歇地追求更美好的方式来打造一个更美好的世界。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/17321.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

英语学习笔记24——Give me/us/him/her/them some ...

Give me/us/him/her/them some … 给我/我们/他/她/他们一些…… 词汇 Vocabulary desk n. 课桌(有书桌堂),写字台 复数:desks 搭配:desk mate 同桌    构成:desk mate 桌子上的伙伴 同桌    cl…

[Algorithm][动态规划][简单多状态DP问题][买卖股票的最佳时机 III][买卖股票的最佳时机 Ⅳ]详细讲解

目录 1.买卖股票的最佳时机 III1.题目链接2.算法原理详解3.代码实现 2.买卖股票的最佳时机 IV1.题目链接2.算法原理详解3.代码实现 1.买卖股票的最佳时机 III 1.题目链接 买卖股票的最佳时机 III 2.算法原理详解 注意:本题为了便于初始化,有较多细节服…

Ubuntu开发入门之“制作Ubuntu rootfs根文件系统镜像“

Ubuntu开发入门之“制作Ubuntu rootfs根文件系统镜像” 问题描述解决方法1.首先从官网下载最基础的ubuntu base核心文件,ubuntu core.2.接下来就是制作一个基础功能的根文件系统3.修改可用源4.接下来就是挂载根文件系统,进行模拟安装应用5.根文件系统安装常用的工具和配置用户…

Polar Si9000 远程桌面提示cannot checkout an uncounted license错误

Polar Si 9000 版本《Si9000e_2022_v22_03》安装完成之后指定到license时候提示如下: cannot checkout an uncounted license 修正办法将安装目录下的license用文档编辑工具(记事本或者Notepad)打开.lic文件,使用编辑器的替换功…

瑞萨RA8系列教程 | 基于e2s实现RA8串口输出配置

关注星标公众号,不错过精彩内容 作者 | strongerHuang 微信公众号 | strongerHuang 串口是最常见的通信方式之一,也是单片机调试最常见的通信接口,也是现在的单片机必备的通信接口,目前(2024-05)最新、最强…

【香橙派AIpro】开箱测评

1.板子开箱 哟,看起来还不错哦!!! 收货清单: 主板*1 1.5m数据线*1 充电头*1 1.1.充电头 近65W的充电头,不错不错。 1.2.主板 1.2.1.上面 哇噢,还送了2.4/5G的WiFi和蓝牙天线。 emm&#xf…

卷出新高度,直呼太强!时隔三月,YOLO再度进化升级:《YOLOv10—实时端到端目标检测》重磅来袭

真的是不止一次感叹,学习的速度都跟不上发论文出新品的速度。。。。。 继前文YOLOv9发布以来也就不到三个月的时间,YOLOv10就来了! 《太卷了,目标检测新成员——YOLOv9: Learning What You Want to LearnUsing Programmable Gra…

吴恩达2022机器学习专项课程C2W2:2.22 多类 softmax softmax与神经网络 softmax的代码改良 多标签分类

目录 多分类问题1.什么是多分类问题2.多分类问题案例3.二分类与多分类的区别 Softmax1. 什么是Softmax2.逻辑回归预测的计算过程3. Softmax预测的计算过程4.Softmax 回归与逻辑回归的关系5. Softmax的损失函数 softmax与神经网络1.设置Softmax层2.Softmax层的计算3.softmax激活…

卸载/删除 Maxask.com,最简单的方法

被绑架的浏览器,太恶心了。 Maxask伪装成了插件,在你搜索网页的时候利用了重定向,导致出现的界面时Maxask的界面,很恶心。 只需要排查正在使用的,如下图有颜色的图表。 删除一个插件,浏览器搜索一下看看有…

先进制造aps专题九 中国aps行业分析

国外aps的问题是不给国内客户定制算法 国外aps的算法都很强大,考虑几百个约束条件,各种复杂的工序关系,还有副资源约束特殊规格约束,排程还优化,光c写的算法代码就几十万行甚至上百万行 国内aps的问题是实现不了复杂的…

项目范围管理

目录 1.概述 2.主要工作 3.基础 4.项目范围管理的过程 5.规划范围管理 6.收集需求 7.定义范围 8.创建 WBS 9.确认范围 10.控制范围 1.概述 项目范围管理是项目管理中的一个重要组成部分,涉及到确定项目需要完成的工作范围,以及如何管理和控制…

String到底创建几个对象?

String在生成的过程中如何创建对象? String s1 new String("hello") String s2 "world" String s3 new String("x") new String("y") String s5 new String("abc") "def" String s6 new String…

mysql数据库安装指南

这里写自定义目录标题 官网下载mysql数据库安装MySQL数据库添加环境变量查看mysql的服务验证是否配置成功 注意:如果用MySQL8的版本安装不成功,可以尝试用MySQL5的版本。MySQL8的版本可能在windows上一直不能启动,经过查询是某个版本的漏洞。…

分布式系列之分布式锁

背景 SOA或微服务架构体系下必不可少的一个分布式组件,常用于解决分布式场景下数据一致性的问题。 应用场景: 资源竞争控制:在分布式系统中,多个节点可能同时访问共享资源,如数据库、文件系统、缓存等。分布式锁可以…

如何在 jQuery 中检查一个元素是否隐藏

在前端开发中,我们常常需要判断一个元素是否隐藏。在 jQuery 中,有多种方式可以实现这一点。然而,并不是所有的解决方案都适用于所有情况。为此,我写了一个通用的解决方案来应对各种复杂情形。本文将详细介绍这个方法及其使用方式…

知识存储概述

文章目录 知识存储概述知识存储方式知识存储基础工具技术发展趋势 知识存储是针对知识图谱的知识表示形式设计底层存储方式,完成各类知识的存储,以支持对大规模图数据的有效管理和计算。知识存储的对象包括基本属性知识、关联知识、事件知识、时序知识和…

操作系统 实验17 批处理操作接口7:until循环与select循环

1、建立文件Until.sh实现累加和 脚本: #!/bin/bash sum010 sum020 i1 until [ $i -gt 100 ] dolet "sum01i"let "ji%2"if [ $j -ne 0 ];thenlet "sum02i"filet "i1" done echo $sum01 echo $sum02命令:. ./Un…

深入解析 RocketMQ 和 Kafka 的消息压缩机制

深入解析 RocketMQ 和 Kafka 的消息压缩机制 消息队列系统在现代分布式系统中扮演着重要角色,它们不仅需要高效地传递消息,还需要在传输过程中尽量减少带宽和存储的占用。消息压缩是一种常见的优化手段,可以显著减少消息的体积。本文将详细探…

Spring Security:认证与授权

Spring Security:认证与授权 在这篇文章中,你将学到与Spring Security相关的五个关键概念和术语,这些是你真正需要了解的。当你学习Spring Security时,你会一次又一次地遇到这些核心术语和概念。因此,在这篇文章中&am…

深入Docker in Docker:原理解析与实战演练

Docker in Docker(简称DinD)是一个在Docker容器内部运行另一个Docker守护进程和客户端的技术。这允许在一个容器中执行Docker命令,就像在宿主机上一样。这种技术在某些用例中非常有用,比如CI/CD管道、测试环境或者某些需要隔离的环…