具身智能是智能科学的一个基础问题,在过去的5.4亿年以来,地球上所有生物都是通过身体和环境交互、进化逐步产生的。通俗地讲,具身智能体以第一人称视角身临其境地从环境交互中理解外部世界的本质概念,被认为是通向通用人工智能的重要方式之一。具身智能最早出现在图灵1950年的论文Computing Machinery and Intelligence中,论文中探讨了人工智能发展的两种路径:一条路是聚焦抽象计算(比如下棋)所需的智能,而另一条路则是为机器配备最好的传感器和执行器,使其可以与人类交流、向婴儿一样进行学习。
这两条道路逐渐演变成了非具身和具身智能。虽然当时研究者认为具身智能概念非常重要,但受限于技术和理论水平,具身智能并没有取得较大进展。相反,以智能表征和计算为代表的非具身智能获得了更多的发展。特别是2012年以来,在gpu和大数据驱动下,非具身智能在以互联网为代表的领域取得了巨大的成功。包括最近chatgpt和gpt4等大模型的巨大突破,开启了通用视觉语言大模型的道路,充足的数据使得语义理解的研究范式日趋成熟、能力也日趋完美。
然而,互联网的静态大数据缺乏关于智能体如何运动、如何移动其关节、如何与世界物理交互的信息,这种物理交互能力的缺失使得人工智能系统无法真正解决现实世界的问题。由于缺少充足的智能体与环境交互的信息,非具身智能通常无法处理在人类看来非常简单的事情,例如物体操作、移动以及常识的理解等。而这些领域智能的产生恰恰不是孤立的,相反是深深嵌入在能够与环境不断交互的具身智能上,这也成为当今实现通用人工智能应用的瓶颈。因此,人工智能想要解决更具挑战性的真实世界中的难题,仍然依赖我们对智能的本质有更新的突破性认识。具身化自然成为研究智能的一条重要道路,这也是具身智能研究非常必要的根本原因。
例如“切菜”这一行为,只有智能体身临其境的感知切菜中的力阻尼和菜的状态变化,才能真正理解“切菜“的概念,只依靠观察人切菜的动作来预测行为标签,或许永远无法理解”切”的真正含义。