具身智能
1. 具身智能(Embodied AI)概述
人工智能、机器学习和计算机视觉的最新研究趋势催生了一个不断增长的研究领域,称为“具身智能”。Facebook 人工智能研究中心 (FAIR) 和英特尔实验室一直在引领嵌入式人工智能领域的新项目。“体现”被定义为“为想法提供有形或可见的形式”。简而言之,“Embodied AI”的意思是“虚拟机器人的人工智能”。更具体地说,嵌入式人工智能是为虚拟机器人解决人工智能问题的领域,虚拟机器人可以在虚拟世界中移动、观看、说话和与其他虚拟机器人交互——然后将这些模拟机器人解决方案转移到现实世界的机器人上。
具身智能的智能体拥有以下自主能力:
👁 看:通过视觉或其他感官感知环境。
🗣交谈:根据他们的环境进行自然语言对话。
👂聆听:理解场景中任意位置的音频输入并做出反应。
🕹行动:导航并与环境互动以实现目标。
🤔推理:考虑并计划其行为的长期后果。
2. 具身智能动机
过去十年人工智能的许多进步都归功于机器学习和深度学习(例如语义分割、对象检测、图像描述)。机器学习和深度学习之所以取得成功,是因为数据量不断增加(例如 Youtube、Flickr、Facebook)和计算能力(例如 CPU、GPU、TPU)不断增加。然而,这种类型的“互联网数据”(来自互联网的图像、视频和文本)并非来自现实世界的第一人称视角。数据被打乱、随机,来自卫星、自拍照、推特,而这些都不是人类感知世界的方式。然而,机器学习方法正试图将这些数据提供给 NLP、CV 和导航问题。虽然这些领域因“互联网数据”和“互联网人工智能”而取得了很大进展,但它并不是最合适的数据,也不是最合适的方法。机器学习的方法并不符合人类的学习方式。人类通过观察、移动、互动以及与他人交谈来学习。人类从连续的经验中学习,而不是从打乱和随机的经验中学习。具身人工智能的主题是让具身代理(或虚拟机器人)以与人类相同的方式学习。这就是为什么认知科学和心理学专家的见解至关重要。这意味着虚拟机器人应该像人类一样通过观察、移动、说话以及与世界互动来学习。
虽然“实体人工智能”的方法论与“互联网人工智能”不同,但实体人工智能可以从互联网人工智能的许多成功经验中受益。计算机视觉和自然语言处理现在实际上在某些方面效果很好(如果有大量标记数据)。CV 和 NLP 领域的这些进步极大地增加了 Embodied AI 的成功潜力。
此外,现在存在大量逼真的 3D 场景,可以作为 Embodied AI 训练的模拟环境。这些环境包括 SUNCG、Matterport3D、iGibson、Replica、Habitat 和 DART。这些场景比以前的研究模拟器中使用的环境要真实得多。这些数据集的广泛公开可用性极大地增加了嵌入式人工智能的成功潜力。
3. 具身智能前景与挑战
李飞飞2020年提出了三个人工智能的发展方向
-
具身智能(Embodied AI)
-
视觉推理(Visual Reasoning)
-
场景理解(Scene Understanding)
我们作为人类的认知能力的基础在于我们的大脑在我们体内的物理体现。这种物理连接使我们能够直接与外部世界互动。
与此形成鲜明对比的是,大多数当代人工智能系统纯粹以数字形式存在,缺乏物理存在,也缺乏与我们居住的有形现实的直接联系。
虽然这些无形的或数字的人工智能系统在数字领域展示了非凡的能力,但它们在理解物理世界并与之交互时不可避免地遇到限制。以下是其中一些限制:
缺乏实际存在
数字人工智能系统本质上是代码、算法和数据。虽然他们擅长处理信息和解决数字领域的复杂问题,但他们缺乏有意义的现实世界交互所需的感官输入和物理存在。
环境感知有限
由于缺乏视觉、触觉或声音等感官体验,理解物理世界的复杂性对数字人工智能系统提出了挑战。因此,他们很难有效地应对现实世界的情况。
情境理解
在物理世界中,上下文起着至关重要的作用。然而,主要依赖于数据和算法的数字人工智能系统在掌握上下文方面经常遇到挑战。因此,他们很难理解微妙的细节并根据态势感知做出明智的判断。
数据依赖性
数字人工智能严重依赖历史数据,这会降低其对不可预见情况的适应性。这种以数据为中心的方法可能会限制其在动态和不断变化的现实环境中有效响应的能力。
现在具身智能挑战赛可以提供出现实的挑战:
4. 前沿研究成果
近期实体人工智能领域的创新进一步凸显了其潜力。以下是一些显着的进步:
OpenAI 的 Neo
OpenAI 推出了 Neo,这是一款人工智能驱动的机器人,将数字智能与物理身体相结合。Neo 在工业任务和家庭辅助方面表现出色,展示了自主性、移动性和轻量级设计,为嵌入式人工智能树立了新标准。
亚马逊的 Alexa Arena
亚马逊的 Alexa Arena是一个具体的人工智能平台,可促进无缝的人机交互。它使用户能够使用自然语言与虚拟机器人进行交流,并协助他们执行各种任务。
该平台专注于开发先进的人工智能模型。它提供了宝贵的资源,包括代码、数据集和场景,以支持人工智能的开发,从而成为推进实体人工智能和人机协作的催化剂。
梅塔的 VC-1
Meta 推出了 VC-1,这是一种人工视觉皮层,其灵感源自人类视觉皮层将视觉转化为行动的能力。VC-1 使用日常任务视频进行训练,在虚拟环境中的 17 项感觉运动任务中表现出色,超越了其前辈。
适应性感觉运动技能协调 (ASC)
Meta为具体的 AI 代理引入了自适应感觉运动技能协调(ASC)方法。这项创新使他们能够适应不断变化的环境,即使是在意外中断的情况下。令人印象深刻的是,ASC 在现实环境中涉及机器人移动和操纵的复杂任务中取得了 98% 的成功率。
麻省理工学院和斯坦福大学的控制理论和机器学习融合
麻省理工学院和斯坦福大学的研究人员设计了一种智能 方法,使无人机和自动驾驶汽车等机器人能够有效地处理具有挑战性的情况。
将控制理论与机器学习相结合,使这些机器人无需单独的指令即可学习如何移动。尽管数据很少,但该方法被证明非常有效,使其成为快速适应至关重要的情况的理想选择。
通过用户反馈来教学机器人
麻省理工学院与合作伙伴合作,简化了机器人教学过程。当机器人遇到故障时,系统会生成反事实解释,例如建议可能导致成功的替代行动。
然后,用户提供有关机器人失败原因的反馈,系统利用该反馈来提高机器人的性能。这种方法显着减少了教授机器人新任务所需的时间和精力,使其成为帮助老年人或残疾人的通用机器人的理想选择。
Reference
https://embodied-ai.org/
https://www.techopedia.com/embodied-ai-bridging-the-gap-between-mind-and-matter
https://medium.com/machinevision/overview-of-embodied-artificial-intelligence-b7f19d18022