李飞飞划重点的「具身智能」,走到哪一步了?

1e0a3120fc135ffb761e45a5489d99db.png

来源:选自Quanta magazine

作者:Allison Whitten

编译:机器之心

编辑:张倩

在前段时间的一篇文章中,李飞飞指出了计算机视觉未来的几个重要方向,其中最重要的一个就是具身智能。她认为,具身智能将成为 AI 领域的下一个「北极星问题」之一。那么,具身智能是什么?为什么如此重要?现在发展到什么程度了?这篇文章进行了详细分析。

2009 年,当时在普林斯顿大学工作的计算机科学家李飞飞主导构建了一个改变人工智能历史的数据集——ImageNet。它包含了数百万张有标签的图像,可以用来训练复杂的机器学习模型,以识别图像中的物体。

2015 年,机器的识别能力超过了人类。李飞飞也在不久之后转向了新的目标,去寻找她所说的另一颗「北极星」(此处的「北极星」指的是研究人员所专注于解决的关键科学问题,这个问题可以激发他们的研究热情并取得突破性的进展)。

a63ba303c765225d9f578caeaff48797.png

她通过回溯 5.3 亿年前的寒武纪生命大爆发找到了灵感,当时,许多陆生动物物种首次出现。一个有影响力的理论认为,新物种的爆发部分是由眼睛的出现所驱动的,这些眼睛让生物第一次看到周围的世界。李飞飞认为,动物的视觉不会孤零零地产生,而是「深深地嵌在一个整体中,这个整体需要在快速变化的环境中移动、导航、生存、操纵和改变,」她说道,「所以我就很自然地转向了一个更加活跃的 AI 领域。」

5b9d22076337686fa1e4e062c271ad46.png

如今,李飞飞的工作重点集中在 AI 智能体上,这种智能体不仅能接收来自数据集的静态图像,还能在三维虚拟世界的模拟环境中四处移动,并与周围环境交互。

这是一个被称为「具身 AI」的新领域的广泛目标。它与机器人技术有所重叠,因为机器人可以看作是现实世界中具身 AI 智能体和强化学习的物理等价物。李飞飞等人认为,具身 AI 可能会给我们带来一次重大的转变,从识别图像等机器学习的简单能力,转变到学习如何通过多个步骤执行复杂的类人任务,如制作煎蛋卷。

今天,具身 AI 的工作包括任何可以探测和改变自身环境的智能体。在机器人技术中,AI 智能体总是生活在机器人身体中,而真实模拟中的智能体可能有一个虚拟的身体,或者可能通过一个移动的相机机位来感知世界,而且还能与周围环境交互。「具身的含义不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能,」李飞飞解释说。

这种交互性为智能体提供了一种全新的——在许多情况下是更好的——了解世界的方式。这就相当于,之前你只是观察两个物体之间可能的关系,而现在,你可以亲自实验并让这种关系发生。有了这种新的理解,想法就会付诸实践,更大的智慧也会随之而来。随着一套新的虚拟世界的建立和运行,具身 AI 智能体已经开始发挥这种潜力,在他们的新环境中取得了重大进展。

「现在,我们没有任何证据证明存在不通过与世界互动来学习的智能,」德国奥斯讷布吕克大学的具身 AI 研究者 Viviane Clay 说。

走向完美模拟

虽然研究人员早就想为 AI 智能体创造真实的虚拟世界来探索,但真正创建的时间才只有五年左右。这种能力来自于电影和视频游戏行业对图像的改进。2017 年,AI 智能体可以像在家里一样逼真地描绘室内空间——虽然是虚拟的,但却是字面上的「家」。艾伦人工智能研究所的计算机科学家构建了一个名为 AI2-Thor 的模拟器,让智能体在自然的厨房、浴室、客厅和卧室中随意走动。智能体可以学习三维视图,这些视图会随着他们的移动而改变,当他们决定近距离观察时,模拟器会显示新的角度。

这种新世界也给了智能体一个机会去思考一个新维度「时间」中的变化。西蒙弗雷泽大学的计算机图形学研究员 Manolis savva 说,「这是一个很大的变化。在具身 AI 设定中,你有这些时间上的连贯信息流,你可以控制它。」

这些模拟的世界现在已经足够好,可以训练智能体完成全新的任务。它们不仅可以识别一个物体,还可以与它互动,捡起它并在它周围导航。这些看似很小的步骤对任何智能体来说都是理解其环境的必要步骤。2020 年,虚拟智能体拥有了视觉以外的能力,可以听到虚拟事物发出的声音,这为其了解物体及其在世界上的运行方式提供了一种新的视角。

b59f8911aaff269fbc064f984bce1004.gif

可以在虚拟世界(ManipulaTHOR environment)中运行的具身 AI 智能体以不同的方式学习,可能更适合更复杂的、类人的任务。

不过,模拟器也有自己的局限。「即使最好的模拟器也远不如现实世界真实,」斯坦福大学计算机科学家 Daniel Yamins 说。Yamins 与麻省理工学院和 IBM 的同事共同开发了 ThreeDWorld,该项目重点关注在虚拟世界中模拟现实生活中的物理现象,如液体的行为以及一些物体如何在一个区域是刚性的,而在另一个区域又是柔性的。

这是一项非常具有挑战性的任务,需要让 AI 以新的方式去学习。

与神经网络进行比较

到目前为止,衡量具身 AI 进展的一种简单方法是:将具身智能体的表现与在更简单的静态图像任务上训练的算法进行比较。研究人员指出,这些比较并不完美,但早期结果确实表明,具身 AI 的学习方式不同于它们的前辈,有时候比它们的前辈学得还好。

在最近的一篇论文(《Interactron: Embodied Adaptive Object Detection》)中,研究人员发现,一个具身 AI 智能体在检测特定物体方面更准确,比传统方法提高了近 12%。该研究的合著者、艾伦人工智能研究所计算机科学家 Roozbeh Mottaghi 表示,「目标检测领域花了三年多的时间才实现这种水平的改进。而我们仅通过与世界的交互就取得了很大的进步。」

其他论文已经表明,当你把目标检测算法做成具身 AI 的形式,并让它们探索一次虚拟空间或者随处走动收集对象的多视图信息时,该算法会取得进步。

研究人员还发现,具身算法和传统算法的学习方式完全不同。要想证明这一点,可以想想神经网络,它是每个具身算法和许多非具身算法学习能力背后的基本成分。神经网络由许多层的人工神经元节点连接而成,它松散地模仿人类大脑中的网络。在两篇独立的论文中,研究人员发现,在具身智能体的神经网络中,对视觉信息作出反应的神经元较少,这意味着每个单独的神经元在作出反应时更有选择性。非具身网络的效率要低得多,需要更多的神经元在大部分时间保持活跃。其中一个研究小组(由即将任纽约大学教授的 Grace Lindsay 领导)甚至将具身和非具身的神经网络与活体大脑中的神经元活动(老鼠的视觉皮层)进行了比较,发现具身的神经网路最接近活体。

Lindsay 很快指出,这并不一定意味着具身化的版本更好,它们只是不同。与物体检测论文不同的是,Lindsay 等人的研究比较了相同神经网络的潜在差异,让智能体完成了完全不同的任务,因此他们可能需要工作方式不同的神经网络来完成他们的目标。

虽然将具身神经网络与非具身神经网络相比是一种衡量改进的方法,但研究人员真正想做的并不是在现有的任务上提升具身智能体的性能,他们的真正目标是学习更复杂、更像人类的任务。这是最令研究人员兴奋的地方,他们看到了令人印象深刻的进展,尤其是在导航任务方面。在这些任务中,智能体必须记住其目的地的长期目标,同时制定一个到达目的地的计划,而不会迷路或撞到物体。

在短短几年的时间里,Meta AI 的一位研究主管、佐治亚理工学院计算机科学家 Dhruv Batra 领导的团队在一种被称为「point-goal navigation」的特定导航任务上取得了很大进展。在这项任务中,智能体被放在一个全新的环境中,它必须在没有地图的情况下走到某个坐标(比如「Go to the point that is 5 meters north and 10 meters east」)。

Batra 介绍说,他们在一个名叫「AI Habitat」的 Meta 虚拟世界中训练智能体,并给了它一个 GPS 和一个指南针,结果发现它可以在标准数据集上获得 99.9% 以上的准确率。最近,他们又成功地将结果扩展到一个更困难、更现实的场景——没有指南针和 GPS。结果,智能体仅借助移动时看到的像素流来估计自身位置就实现了 94% 的准确率。

8f620f0e8b3d455071b654c0c0b0895e.gif

Meta AI Dhruv Batra 团队创造的「AI Habitat」虚拟世界。他们希望提高模拟的速度,直到具身 AI 可以在仅仅 20 分钟的挂钟时间内达到 20 年的模拟经验。

Mottaghi 说,「这是一个了不起的进步,但并不意味着彻底解决了导航问题。因为许多其他类型的导航任务需要使用更复杂的语言指令,比如「经过厨房去拿卧室床头柜上的眼镜」,其准确率仍然只有 30% 到 40% 左右。

但导航仍然是具身 AI 中最简单的任务之一,因为智能体在环境中移动时不需要操作任何东西。到目前为止,具身 AI 智能体还远远没有掌握任何与对象相关的任务。部分挑战在于,当智能体与新对象交互时,它可能会出现很多错误,而且错误可能会堆积起来。目前,大多数研究人员通过选择只有几个步骤的任务来解决这个问题,但大多数类人活动,如烘焙或洗碗,需要对多个物体进行长序列的动作。要实现这一目标,AI 智能体将需要更大的进步。

在这方面,李飞飞可能再次走在了前沿,她的团队开发了一个模拟数据集——BEHAVIOR,希望能像她的 ImageNet 项目为目标识别所做的那样,为具身 AI 作出贡献。

4dc1581c24ea9f8b27ffa6dd78713223.gif

这个数据集包含 100 多项人类活动,供智能体去完成,测试可以在任何虚拟环境中完成。通过创建指标,将执行这些任务的智能体与人类执行相同任务的真实视频进行比较,李飞飞团队的新数据集将允许社区更好地评估虚拟 AI 智能体的进展。

一旦智能体成功完成了这些复杂的任务,李飞飞认为,模拟的目的就是为最终的可操作空间——真实世界——进行训练。

「在我看来,模拟是机器人研究中最重要、最令人兴奋的领域之一。」李飞飞说到。

机器人研究新前沿

机器人本质上是具身智能体。它们寄居在现实世界的某种物理身体内,代表了最极端的具身 AI 智能体形式。但许多研究人员发现,即使是这类智能体也能从虚拟世界的训练中受益。

Mottaghi 说,机器人技术中最先进的算法,如强化学习等,通常需要数百万次迭代来学习有意义的东西。因此,训练真实机器人完成艰巨任务可能需要数年时间。

386ffb596056ccb51afccc945898b113.gif

机器人可以在现实世界中不确定的地形中导航。新的研究表明,虚拟环境中的训练可以帮助机器人掌握这些技能以及其他技能。

但如果先在虚拟世界中训练它们,速度就要快得多。数千个智能体可以在数千个不同的房间中同时训练。此外,虚拟训练对机器人和人来说都更安全。

2018 年,OpenAI 的研究人员证明了:智能体在虚拟世界中学到的技能可以迁移到现实世界,因此很多机器人专家开始更加重视模拟器。他们训练一只机械手去操作一个只在模拟中见过的立方体。最新的研究成果还包括让无人机学会在空中避免碰撞,将自动驾驶汽车部署在两个不同大陆的城市环境中,以及让四条腿的机器狗在瑞士阿尔卑斯山完成一小时的徒步旅行(和人类所花的时间一样)。

未来,研究人员还可能通过虚拟现实头显将人类送入虚拟空间,从而缩小模拟和现实世界之间的差距。英伟达机器人研究高级主管、华盛顿大学教授 Dieter Fox 指出,机器人研究的一个关键目标是构建在现实世界中对人类有帮助的机器人。但要做到这一点,它们必须首先接触并学习如何与人类交互。

Fox 说,利用虚拟现实技术让人类进入这些模拟环境,然后让他们做出演示、与机器人交互,这将是一种非常强大的方法。

无论身处模拟还是现实世界,具身 AI 智能体都在学习如何更像人,完成的任务更像人类的任务。这个领域在各个方面都在进步,包括新的世界、新的任务和新的学习算法。

「我看到了深度学习、机器人学习、视觉甚至语言的融合,」李飞飞说,「现在我认为,通过这个面向具身 AI 的『登月计划』或『北极星』,我们将学习智能的基础技术,这可以真正带来重大突破。」

820a5390cf8138a4418332950092ea27.png

李飞飞探讨计算机视觉「北极星」问题的文章。链接:https://www.amacad.org/publication/searching-computer-vision-north-stars

原文链接:https://www.quantamagazine.org/ai-makes-strides-in-virtual-worlds-more-like-our-own-20220624/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

7f64c1e32ba9021e65edff5da5370f97.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481889.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于链接预测和卷积学习的Web服务网络嵌入

Web Service Network Embedding based on Link Prediction and Convolutional Learning 这是我读研的第一篇论文,也是花了好几天的时间。 基于链接预测和卷积学习的Web服务网络嵌入 摘要:为了在许多基本任务中,如基于Web的软件服务聚类、推荐…

芯片光刻路线图

来源:内容来自半导体行业观察(ID:icbank)编译:SPIE我们所知道的第一个半导体路线图可能是摩尔观察到的,以他为名字的“摩尔定律”预计,芯片的计算能力随着时间的增长呈指数增长。这促使芯片制造…

知识图谱常用指标:MRR、Hits@1、Hits@10、MR

知识图谱常用指标:MRR、Hits1、Hits10、MR 一、MRR MRR的全称是Mean Reciprocal Ranking,其中Reciprocal是指“倒数的”的意思。具体的计算方法如下: 其中是三元组集合,是三元组集合个数,是指第个三元组的链接预测排名…

科学创新四十年,我们可能还没搞明白科学和技术的基本概念

来源:澎湃新闻智库报告栏目撰文:周路明(源创力离岸创新中心负责人,深圳市科协原主席)中国系统推进科学和技术发展的工作始于改革开放,至今已经40余年。中国官方和民间发展科学和技术的热情在世界范围内都屈…

Python:Tensorflow中两个稀疏张量相乘

Python:Tensorflow中两个稀疏张量相乘 博主在想让两个稀疏张量进行相乘时,发现不能用tf.matmul、tf.sparse_matmul、tf.sparse_tensor_dense_matmul,看来tf内置的没有对两个SparseTensor相乘的函数,于是,我在网上找了相…

超越Yann LeCun:世界模型的学习和推理

来源:CreateAMind节选第二节,约4000字摘要了解大脑中的信息处理并创造通用人工智能是全世界科学家和工程师的长期愿望。人类智能的显着特征是在与包括自我在内的世界的各种互动中的高级认知和控制,这些不是预先定义的,而是随着时间…

有了这个标准,你就知道和你聊天的AI是什么水平了

来源:AI前线编辑:刘燕InfoQ 获悉,6 月 28 日,由清华大学计算机教授、智能技术与系统实验室副主任黄民烈发起,联合了十余家科研机构、二十多位知名学者共同制定的全球首个《AI 对话系统分级定义》(以下简称《…

UCL汪军专访:从生命体决策出发,探索智能决策的安全与风险

来源:智源社区整理:沈磊贤编辑:李梦佳导读:我们的日常生活中无时无刻不涉及到决策,如果说感知智能是从观察到发现规律的过程,那么决策智能就是从规律再返回到感知世界,进而改变数据的过程。这样…

课程设计-毕业设计-JAVA画板课程设计---总之岁月漫长,然而值得等待。

在校大学生的一份辛苦劳动成果写了一个小画板程序。 任务书... 1 1.1设计内容... 1 1.2设计任务及具体要求... 1 1.3软件开发运行环境.. 1 2 本组课题... 1 2.1课题... 1 2.2本人任务... 2 3 程序功能简介... 2 1.画板具体功能.. 2 2.功能分析:... 2 …

忆阻器取代晶体管?时间问题!

来源:悦智网1947年,贝尔实验室发明了晶体管,开创了一个电子设备的时代,电子设备比体积庞大、易碎的真空管电子设备更小、运行更冷、功耗更低。晶体管用作二进制开关,以促进电流从关闭状态变为开启状态。收音机、计算器…

可微硬件:AI将如何重振摩尔定律的良性循环

来源:OneFlow撰文:吕坚平本文阐述了当今AI硬件渊源,跳脱过去芯片设计窠臼,以可微分GPU及可微分ISP为例,提倡以AI为本的可微分硬件理念。希望借此可重振软硬件彼此加持的雄风,缓解甚至逆转摩尔定律的衰退。据…

2nm就靠它了!ASML加速研发新一代光刻机:更贵、更强

来源:万物智能视界用于生产 2nm 芯片的 ASML 新款光刻机预计在 2025 年首次投入使用,对芯片厂商而言,“2nm 工艺战”已经打响。ASML 冲刺 0.55 NA EUV 光刻机对于芯片厂商而言,要想发展先进制程,光刻机是关键设备。而从…

中国机器人产业图谱(2022)

来源:阿里云加速器与行行查研究中心编辑:蒲蒲当前中国机器人产业呈现良好发展势头,产业规模快速增长,“十三五”以来年均复合增长率约为15%;产业格局不断优化,以智能制造、智慧服务为使命与愿景的机器人企业…

全球十大半导体企业,美国独占七席

来源:芯师爷想要了解半导体行业,就永远绕不开一个国家:美国。作为半导体的重要发源地,美国成功确立了芯片市场的“老大”地位。根据IC Insights的芯片市场研究报告,2021年美国企业占据了全球芯市场总销售额的54%&#…

【前沿技术】AI终于攻陷了数学领域!高数考试超过普通博士??

来源:智能研究院高数考不好,不知道是多少人的噩梦。如果说你高数考得还不如AI好,是不是就更难以接受了?没错,来自OpenAI的Codex已经在MIT的7门高数课程题目中正确率达到81.1%,妥妥的MIT本科生水平。课程范围…

中科院院士:几乎没有任何研究课题会完全按照预期发展;如果有,这种研究不会有任何突破、不会给人带来任何惊喜...

来源:科学网作者:Philip Ball(《国家科学评论》特约作者)2001年,唐本忠团队偶然观察到了这一有悖常理的光物理现象,从而在发光材料研究领域取得了重大原创突破。2016年,Nature将AIE点&#xff0…

工业人工智能系统框架、关键技术、典型应用与发展趋势

来源:原文刊载于《机床与液压》2022年5月 作者:唐露新 张儒锋 姜德志 林建文 周书兴近年来,智能制造是很多工业发达国家积极推进和重点发展的领域,美国、欧洲和日本等都将目光转向人工智能等核心技术,并不断取得新的突…

MIT Technology Review 2022年“全球十大突破性技术”解读

来源:中国科学基金自2001年起,MIT Technology Review每年都会评选出年度“全球十大突破性技术”,不少在当年崭露头角的技术,如今已经深刻地改变了我们的生活,推动了人类社会的进步。2022年2月23日,MIT Tech…

长文综述:大脑中的熵、自由能、对称性和动力学

来源:集智俱乐部作者:Viktor Jirsa, Hiba Sheheitli译者:JawDrin审校:彭菘峻 编辑:邓一雪 导语我们的大脑在一定程度上是贝叶斯推理系统,生成内部模型对外部世界作出预测,然后将预测与感官输入不…

统计学和机器学习到底有什么区别?

来源:不止数据分析统计学和机器学习之间的界定一直很模糊。无论是业界还是学界一直认为机器学习只是统计学披了一层光鲜的外衣。而机器学习支撑的人工智能也被称为“统计学的外延”。例如,诺奖得主托马斯萨金特曾经说过人工智能其实就是统计学&#xff0…