23年6月清华、人大、UIUC、纽约大学、北邮和CMU等的论文“Tool Learning with Foundation Models”。
人类拥有创造和利用工具的非凡能力,使他们能够克服物理限制并探索新领域。随着最近强大的基础模型的出现,人工智能系统有可能像人类一样熟练地使用工具。这种范式被称为带有基础模型的工具学习,结合了专业工具和基础模型的优势,以提高解决问题的准确性、效率和自动化。
本文中对工具学习进行了系统的调查和全面的回顾。首先介绍工具学习的背景,包括其认知起源、基础模型的范式转变以及工具和模型的互补作用。回顾现有的工具学习研究,并制定了一个通用的工具学习框架:从理解用户指令开始,模型应该学会将一个复杂的任务分解为多个子任务,通过推理动态调整其规划,并通过选择合适的工具来有效地攻克每个子任务。还讨论如何训练模型以提高工具使用能力并促进工具学习的泛化。
作者对 18 个代表性工具进行了实验,并展示了当前基础模型在巧妙利用工具方面的潜力。最后,讨论了一些需要进一步研究工具学习的开放问题,例如确保工具的安全和可信使用、利用基础模型创建工具以及解决个性化挑战。
相关代码和数据集公开:https://github.com/OpenBMB/BMTools
如图所示:工具学习结合基础模型和专有工具
人类在工具使用体现的智能水平,分为三种模式:辅助工具的使用通常是被动且无意识的(例如,在避雨走廊行走);任意工具的使用需要主动交互(例如驾驶、使用智能手机);自由工具的使用还需要理解并选择适合场景的工具(例如,烹饪新菜肴)。
在这个框架中,工具使用的三种模式呈现出渐进的关系,工具使用的关键认知过程是技术推理,观察使用、选择或制作工具而不是大量实践来学习新的动作。
使用工具的能力深深植根于认知和感知系统中,相比之下,基础模型主要依赖于预训练数据的统计模式,其工具使用能力与人类模型之间仍然存在显着差距。
人类可以感知工具的属性,并为每项任务选择合适的工具。认知工具分类:
(1) 支持认知过程(例如,记录中间推理结果),
(2) 减轻低层认知的负荷,为高级思维释放资源,
(3) 使学习者能够参与能力范围之外的活动,
( 4)允许学习者生成并测试假设(例如医学院学生的模拟诊断)。
如图从接口角度把工具分为三个:基于物理交互、基于GUI和基于程序
存在许多超越纯自然语言范围的任务。例如,生成演示幻灯片、通过 CAD 应用程序构建 3D 模型以及通过分析团队成员日历来安排会议,这些都是传统AI中尚未定义的复杂任务的示例。幸运的是,LLM强大的泛化能力使用自然语言作为媒介,通过操作工具来完成这些任务。
本质上,工具学习的关键是将复杂的任务分解为子动作,以自然语言的形式将动作token化,并将其转换为特定工具可以理解的可执行指令。语言模型充当“翻译器”,使没有专业技术知识的个人更容易完成复杂的任务。工具学习的潜在应用从自动化客户服务和个人助理到自动驾驶汽车,甚至太空探索。使机器能够以更自然、更细致的方式理解人类语言并与之交互,就可以释放以前不可能的协作和解决问题的新可能性。预计工具学习将有助于通过共享工具促进不同任务的集成。因此,虽然自然语言界面已经实现了语言领域内的统一,但非语言任务带来的挑战需要更先进的方法来利用自然语言和工具学习。利用自然语言的力量,就可以创建能够理解和适应周围复杂且动态的世界的系统,从而为创新和发现开辟新的途径。
旨在简化具体和特定目标的工具,其优点包括:
(1) 减轻记忆:相对较短的上下文来提示 。
(2) 增强专业知识:利用定制算法来满足特定领域任务的需求 。
(3) 更好的可解释性: 理解调用某些工具以及对最终输出的贡献 。
(4)提高稳健性: 工具专门针对其预期用例而设计,与输入扰动无关。
基础模型可以为理解、规划、推理和生成提供坚实的基础,这为工具学习带来了以下几个好处:
(1)提高决策和推理能力。基础模型经过大量数据的训练,使它们能够获取广泛领域的世界知识。如果指导得当,这些知识可以用来在较长的时间范围内进行决策和规划(Huang 等人,2022a)。此外,基础模型表现出了卓越的推理能力(Wei et al., 2022c; Wang et al., 2022a),从而使它们能够推断行动的后果并做出明智的决策。这些推理能力对于需要深入理解因果关系的任务特别有用。
(2)更好的用户体验。受益于基础模型强大的意图理解能力,工具学习可以彻底改变人类与机器交互的方式,并将用户从认知负担中解放出来,使他们能够参与更高阶的思维和决策过程。这反过来又促进了一种无缝且更自然的基于语言的交互范例,彻底改变了传统的图形用户界面 (GUI)。用户只需要提供高层指导和指导,模型就会无缝理解用户的意图,从而提供更加个性化和精确的响应。此外,工具学习有可能使复杂工具的访问民主化。借助基础模型,即使是新手用户也可以轻松快速地开始使用新工具,无论他们以前的经验或技术专业知识如何。这不仅降低了新用户的进入门槛,而且还释放了创新和创造力的大量可能性。然而,应该指出的是,工具使用中的人模协作也会引发伦理问题。
如图是工具学习框架的插图,展示了人类用户和框架的四个核心要素:工具集、控制器、感知器和环境。用户向控制器发送指令,然后控制器做出决策并在环境中执行工具。感知器接收来自环境和用户的反馈,并将其汇总到控制器。
工具集(Tool Set):可供模型使用的各种工具。
控制器(Controller):基础模型建模,负责接收用户的指令,并根据指令制定可执行的规划并调用工具执行。
感知器(Perceiver):负责接收来自环境和用户的反馈信息,汇总给控制器。
环境(Environment):模型所处的场景。