IEEE Fellow李世鹏：人工智能与机器人前沿研究之思考

来源：AI科技评论

作者：维克多

编辑：青暮

2021年12月9日，由粤港澳大湾区人工智能与机器人联合会、雷峰网合办的第六届全球人工智能与机器人大会（GAIR 2021）在深圳正式启幕，140余位产学领袖、30位Fellow聚首，从AI技术、产品、行业、人文、组织等维度切入，以理性分析与感性洞察为轴，共同攀登人工智能与数字化的浪潮之巅。

大会次日，思尔实验室主任、前深圳市人工智能与机器人研究院执行院长、国际欧亚科学院院士、IEEE Fellow李世鹏在GAIR大会上做了《人工智能与机器人前沿研究之思考》的演讲。

李世鹏博士，IEEE Fellow，国际欧亚科学院院士。历任深圳市人工智能与机器人研究院首席科学家和执行院长、科大讯飞集团副总裁及讯飞研究院联席院长、微软亚洲研究院创始成员与副院长。李院士在多媒体、IoT及AI等领域颇具影响力。他拥有203项美国专利并发表了330多篇被引用了的论文（H指数：82）。被Guide2Research列为世界顶尖1000名计算机科学家之一。培养出四位MIT TR35创新奖的获得者。是（科技部）新一代人工智能产业技术创新战略联盟发起人之一及联合秘书长。

在演讲中，李世鹏介绍并展望了人工智能与机器人前沿研究方向，他指出：未来机器学习突破深度学习的数据瓶颈或许可以借助认知科学的方法得到突破，学习范式可从依靠“大数据”转变成依靠“大规则”；人机协作也要进化为人机“谐”作，只有将耦合、交互、增强、互补等目标纳入研究方向，才能实现人机的无缝连接。

以下是演讲全文，AI科技评论做了不改变原意的整理：

今天的演讲题目是《人工智能与机器人前沿研究之思考》，分为三个部分，先谈人工智能和机器人研究全景，然后聚焦研究方向，包括机器学习、运动智能、人机谐作、群体协作；最后进行总结。

人工智能相关研究的关键元素有三个：人、机器人/物联网以及AI。之所以将机器人和物联网归为一类，是因为这两者是物理世界和虚拟世界的接口。如果三个元素两两之间发生联系就会形成一个新的学科，例如机器人和AI相结合会产生智能体，AI和人类相结合会产生人机耦合以及增强智能，而机器人和人类相融合会形成增强机体。随着人工智能与机器人领域的发展，研究对象不再局限在单个智能体，而是越来越多地对多个智能体的协作进行研究，例如人类社会群体如何更好地相融合？如何设计出能够精妙协作的机器群体？

总体而言，我认为重要的基本研究方向是：机器学习、运动智能、人机谐作、群体协作。

聚焦方向之机器学习

机器学习的发展离不开深度学习加持，它给行业带来许多研究成果，并赋能了语音识别、人脸识别、物体识别、自动驾驶等方面，推动人工智能产业高速发展。

虽然成果颇丰，但成也萧何败也萧何。深度学习依赖于大数据，其瓶颈也在于大数据。例如国内的智能语音技术尽管处于行业领先，但仍依赖技术积累和数据积累。现在想要让深度学习发挥巨大威力，仍然需要大量数据的加持，如果想让深度学习从一个领域扩展到另一个领域，也少不了数据支撑。

如何突破？研究者已经探索了多条路径，其中一个解决方案是：扩展深度学习框架。例如优化深度学习算法、知识图谱+深度学习、专家系统+深度学习等等。另一条路径是因果推理，其目标是借助人类举一反三的能力，期望超越数据之间的相关性，进而探索数据之间的因果性，从而得到数据之间的逻辑推理。

第三条路径是类脑计算，从生物学角度，探索人脑认知元素和机制，以仿真方法再现人类大脑。

个人认为认知科学是突破深度学习框架的着力点。理由是人类认知过程有两点需要我们去进一步借鉴：生而知之、学而知之。

生而知之是指部分认知能力与生俱来，新生儿的脑神经有很多先天的连接。它给我们的启示是：现在的大多深度学习算法，大部分都是从零开始训练，而没有充分或者高效利用先验知识或者已有模型。如何利用“现有知识”是深度学习的下一个热门方向。

学而知之是指大部分认知能力是后天学习到的，尤其是早期学习。通过学习脑神经建立了更多的连接。孩子很多能力，包括感知、应对、语言、读写和理解，甚至分析问题和解决问题的思路和能力在很小时候已经基本定型；以后基本都是知识的积累。这意味着脑神经元很早的时候就连接定型成一个元模型，剩下的是只是利用这个元模型去解决具体领域的问题。这个与当前的大规模预训练模型有着惊人的相似之处。

学而知之的另一层次是：人类学习过程依靠多源的、多传感的、多模态的、多角度的数据，例如视觉、听觉、嗅觉、触觉和语境等联合信息，而今天的深度学习依靠大都是一段语音、一张照片，因此，未来AI模型的输入数据可能不仅是单一的数据，而是多个信号源的融合。如何模仿人类学习的过程，这是认知科学对深度学习的另一个启示。

再者，人类学习过程是一个从样本示例到原理归纳的过程，而不是仅停留在样本示例层面；目前深度学习却都是停留在样本层面。那么，未来是否能够构造类人的机器学习框架，无论输入什么样的数据，只要逻辑相通，都会收敛到一致的模型？

突破深度学习的数据瓶颈，可以尝试构建规则的众包系统，让人类教机器学习过程，其目的不是输入数据，而是让机器学习规则。由于我们试图从日常的活动中学习规则，这种规则普通人都可以标注示教，这就打破了以前专家系统地需要“专家”的局限。这种从“大数据”过渡到“大规则”模型构建方式显然也更符合人类的认知。

聚焦方向之运动智能

众所周知，在机器人领域，波士顿动力公司的产品最“像人”，如上动图，机器人跳舞丝毫看不出生硬的感觉。但受计算资源、能量、运动控制的限制，它只能运行几十分钟。其实，波士顿动力机器人的运行方式是基于电机驱动，存在很多缺点，例如刚性运动、自重比较大、反应速度和灵活性的矛盾以及耗能大。

对比人类和其他动物的运行方式，肌肉、骨骼、传感和神经的结合可以在低能耗情况下，实现灵活运行。这给研究者的启示是，机器人的运行系统应该像人一样满足：高效、灵活、精确、鲁棒、刚柔并济、轻量、自适应等指标。当前的运动智能可能在某一个维度表现优秀，但综合考量仍然有很多缺点。

因此，运动智能的一个重要研究方向是：仿生。仿照动物的运动智能，例如运动控制采用逼近反馈式，运动过程视变化随时灵活调整。

如果说机器人是靠“内力”驱动，而医疗微纳米机器人是“外力”研究方向的代表。例如依靠磁力，小机器人精确地将药物从一个管道运送到另一个管道。

聚焦方向之人机谐作

在人机谐作层面，区别于协作，“谐作”代表人机协作中的耦合、交互、增强、互补、协作、和谐等意思。人机谐作的目标是：不需要告诉机器人类的意图，机器就能领会，从而达到人机的无缝连接。

在达成人机谐作的过程中，重点研究人机自然交互、感知及增强。具体可能包括：生物特征检测和识别、人机接口、脑机接口、语音识别、动作识别、表情识别、语言理解、意图理解、体态感知、无隙增强，以及在扩展现实与远程现实的延伸等等。

人机增强智能方面，今天的机器学习框架大都是基于大数据的深度学习框架，肯定会遇到机器智能处理不了的情景。这对于某些高风险领域，例如自动驾驶、金融等来说是致命的。

针对这一问题，当前的解决方案是“人类接管”。这会涉及三个核心问题：

核心问题1：机器智能如何感知自己处理不了一些情况，而主动要求人来接管？
核心问题2：什么时候人类可以完全放手给机器自主完成任务？
核心问题3：什么样的人机交互设计能充分发挥人和机器各自的长处，同时又无需非必要地麻烦对方？

三个核心问题如果无法解决，会导致一些困境。例如，以自动驾驶为例，目前安全员并不是开了“自动”功能就一劳永逸，仍然需要时时监测路况与路线，一刻都不能分神。这其实增加了安全员的负担，因为在没有自动驾驶的时候，人类对自己的驾驶环境会有一定的预测，而机器驾驶的情况人类无法预测。

人机增强机体也属于人机谐作的一个领域，能够帮助人类增强物理机体能力，完成一些人类自身体力完不成的事情。但机器可能过于复杂，需要人类培训后才能操作。人机增强机体的未来目标是实现人与机器和谐共处，操控起来如同人类的自己的器官一样自然。其中，涉及的核心研究课题包括：机器感知人的意图、人的姿态、理解人的自然语言命令、肢体语言等等，从而让机器以最适合人类接受、恰到好处的平滑方式帮助人解决问题。