在失败中学习，MIT新研究显示，机器可以像婴儿一样学会理解人类目标

大数据文摘出品

来源：MIT

编译：周熙

在Warneken和Tomasello关于人类社会智力的经典实验中，一个18月大蹒跚学步的幼儿看着一个男人抱着一堆书走向一个未开封的柜子。当男子到达柜子时，他笨拙地将书在柜门上撞了几下，然后发出疑惑的声音。

接下来发生了一件不可思议的事情：幼儿提出要帮忙。

在推断出男子的目标后，幼儿走到柜子前，打开柜门，让男子把书放在里面。但是，幼儿的生活经验如此有限，怎么会做出这样的推断呢？

最近，计算机科学家把这个问题重新引向了计算机：机器如何做到相同的事情呢？

工程化这种理解的关键部分可以说是我们最人性化的地方：我们的错误。

就像蹒跚学步的孩子仅仅从他的失败中就能推断出这个人的目标一样，推断我们目标的机器也需要受到我们错误行动和计划的说明。

为了在机器中捕捉这种社交智能，来自麻省理工学院计算机科学与人工智能实验室（CSAIL）和大脑与认知科学系的研究人员创造了一种能够推断目标和计划的算法，即使这些计划可能失败。

这类研究最终可用于改进一系列辅助技术、协作或护理机器人，以及Siri和Alexa等数字助理。

有关这项研究的新论文主要作者，麻省理工学院电气工程和计算机科学系的博士生Tan Zhi-Xuan 说：

"这种对错误进行解释的能力对于构建能够稳健地推断并按照我们的利益行事的机器来说可能是至关重要的。否则，人工智能系统可能会错误地推断，由于我们未能实现我们的高阶目标，这些目标毕竟不是我们想要的。我们已经看到，当算法以我们对社交媒体的反射性和无计划的使用为食，将我们引向依赖和两极化的道路时，会发生什么。理想情况下，未来的算法将认识到我们的错误、坏习惯和非理性，并帮助我们避免而不是强化它们。"

为了创建他们的模型，该团队使用了麻省理工学院最近开发的一个新的AI编程平台Gen，将符号化（人类可读型）AI规划与贝叶斯推理相结合。贝叶斯推理提供了一种将不确定信念与新数据相结合的最佳方式，被广泛用于金融风险评估、诊断测试和选举预测。

该团队的模型表现比现有的一种名为贝叶斯逆向强化学习（BIRL）的基础方法快20到150倍，该方法通过观察代理的行为来学习代理的目标、价值或奖励，并试图提前计算完整的政策或计划。新模型在推断目标方面的准确率达到了75%。

加州大学伯克利分校的Smith-Zadeh工程教授Stuart Russell说："人工智能正处于放弃'标准模式'的过程中，在这种模式下，一个固定的、已知的目标被赋予机器。相反，机器知道它不知道我们想要什么，这意味着如何从人类行为中推断目标和偏好的研究成为人工智能的核心课题。这篇论文认真对待这一目标，重点是，它的方向是朝着建立模型进而颠覆人类从目标和偏好产生行为的实际过程。"

如何实现

虽然在推断代理的目标和欲望方面已经有相当多的工作，但这些工作大多假设代理为实现其目标而采取最佳行动。

然而，团队特别受到一种常见的人类规划方式的启发，这种方式基本上是次优的：不是提前把所有的事情都规划好，而是只形成部分计划，执行后再从新规划。虽然这样做可能会因为 "提前 "思考不足而导致错误，但也减少了认知负荷。

例如，想象你正在看你的朋友准备食物，你想通过弄清他们在做什么来帮忙。你猜测你的朋友接下来可能采取的几个步骤：也许是预热烤箱，然后做苹果派的面团。然后，你只 "保留 "与朋友实际做的事情保持一致的部分计划，然后你再重复这个过程，从那里开始提前计划几步。

一旦你看到你的朋友做了面团，你就可以把可能性只限制在烘焙食品上，并猜测他们接下来可能会切苹果，或者买一些胡桃来做馅饼。最终，你会把你朋友不可能做的菜品计划全部排除，只保留可能的计划（即派的配方）。一旦你足够确定是哪道菜，你就可以主动帮忙了。

该团队的推理算法被称为 "顺序逆向计划搜索（SIPS）"，按照这个顺序来推断代理人的目标，因为它在每一步都只做部分计划，并在早期削减不可能的计划。由于该模型每次只提前几步进行计划，所以它也考虑到了代理“你的朋友（前文例子）”可能也在做同样的事情。这包括由于有限的计划而导致错误的可能性，例如在打开冰箱之前没有意识到你可能需要两只手空闲。通过提前检测这些潜在的故障，该团队希望这个模型可以被机器用来更好地提供帮助。

"我们早期的一个见解是，如果你想推断某人的目标，你不需要比他们想得更远。我们意识到，这不仅可以用来加快目标推断的速度，还可以用来从过于短视而无法成功的行动中推断出预期目标，这使得我们从扩大算法规模转向探索解决当前人工智能系统更根本的局限性的方法。"麻省理工学院首席研究科学家Vikash Mansinghka如是说，他是Tan Zhi-Xuan的联合顾问之一，同时还有麻省理工学院大脑和认知科学教授Joshua Tenenbaum。"这是我们更大的moonshot的一部分，即对18个月大的幼儿感知进行逆向工程。"

这项工作的概念建立在Tenenbaum小组早期认知模型的基础上，展示了儿童甚至是10个月大的婴儿对他人目标所做的较简单的推断如何被量化建模为贝叶斯逆向规划的一种形式。

虽然到目前为止，研究人员只在固定目标集的相对较小的规划问题中探索推理，但他们计划通过未来的工作来探索人类目标和计划的更丰富的层次结构。通过对这些层次结构进行编码或学习，机器或许能够推断出更多种类的目标，以及它们所服务的深层目的。

"虽然这项工作只代表着一小步，但我希望这项研究能够为构建真正理解人类目标、计划和价值观的机器奠定一些必要的哲学和概念基础，"Xuan说。"这种将人类建模为不完美推理者的基本方法感觉非常有前途。现在，它让我们能够推断出计划什么时候是错误的，也许它最终也会让我们推断出人们什么时候持有错误的信念、假设和指导原则。"

Zhi-Xuan、Mansinghka和Tenenbaum与电气工程和计算机科学研究生Jordyn Mann和博士生Tom Silver一起撰写了这篇论文。他们将在NeurIPS 2020上在线展示他们的成果。