AAAI 2024:大模型如何掌握复杂工具?看孔子框架的教学之道

如今,大型语言模型(LLM)发展飞速,在文本和图像生成方面表现都很出色,但在我们的实际生活中,要理解和正确使用各种工具方面尚存在困难。人们期望这些模型在解决实际问题时能够灵活运用和理解各种工具,例如在规划路线、智能家居等生活场景中,模型可能需要准确选择和使用各种工具。

为了应对 LLM 在实际应用场景中使用各种复杂工具时面临的挑战,作者提出了孔子(Confucius)框架,通过当一个出色的“老师”,使 LLM 在贴近我们生活的应用场景中更加智能。通过多阶段学习、迭代自指导和反思反馈(ISIF)等策略,该框架使 LLM 能够更好地掌握各种工具。

图片

▲图1 现有基于微调的工具学习方法与Confucius 的比较

论文题目:
Confucius: Iterative Tool Learning from Introspection Feedback by Easy-to-Difficult Curriculum

论文链接:
https://arxiv.org/abs/2308.14034


工具学习(Tool Learning)

图片

▲表1 相关工作的比较

工具学习可以让 LLM 与各种工具进行有效交互以完成复杂任务。通过将 LLM 与 API 相结合,可以大大扩展其功能,使 LLM 成为用户与广泛的应用生态系统之间的高效桥梁。目前主流的方法可以分成以下2大类:

  • 无微调(tuning-free)的工具学习:利用 LLM 天生具备的上下文学习能力的方法。在这种方法中,输入工具的演示,来提示 LLM 使用各种工具。然而,该方法存在两个主要缺点:

    1. 数据安全问题:由于数据安全原因,不是所有应用都能将工具和用户数据传输给 LLM 服务提供商。这限制了在这些应用中使用专有 LLM 的可能性。

    2. 输入长度限制:由于输入长度的限制,提示无法容纳大量工具,因此导致对大量工具的应用存在一定的限制。

  • 基于微调(tuning-base)的工具学习:是一种直接在工具使用数据集上微调语言模型参数的方法,通常通过提示专有 LLM 使用特定工具来构建(如搜索、计算和翻译)。这些方法大多首先使用自指导技术从专有 LLM 中收集工具使用数据,然后微调一个开源模型。其优势在于它们可以轻松部署在自托管环境中。然而,在构建的数据集上微调语言模型通常会引入泛化问题

孔子(Confucius)框架

Confucius 包含两个主要阶段:

  1. 为了解决训练 LLM 使用复杂工具的挑战,首先提出一个多阶段学习方法,通过一个从易到难的课程,教授 LLM 使用各种工具。

  2. 提出了一种迭代的内省与更新(ISIF)技术,动态更新数据集,为模型的训练提供更有针对新的样本,以提高模型使用复杂工具的能力。

图片

▲图2  整体架构包括多阶段学习和迭代自指导和内省反馈

多阶段学习

这是一种分阶段进行模型训练的方法,旨在逐步提高模型对复杂任务的学习能力。该方法通常包含多个训练阶段,每个阶段都侧重于不同的任务或难度水平,使模型能够逐渐适应和提高性能。如图 2 所示,一般包括以下几个阶段:

  • 热身训练阶段(Warm-Up Training):在这个阶段,模型接触到一些基本的任务或信息,以建立起对基础知识的了解。这有助于模型建立起基础,为后续学习提供一个良好的起点。

  • 同类别训练阶段(In-Category Training):模型在这个阶段接触到与任务相关的更多信息,学习如何在同一类别的任务中进行选择和应用,这有助于模型更好地理解任务的内在特征和模式。

  • 跨类别训练阶段(Cross-Category Training):模型在这个阶段进一步面对更广泛的任务和场景,以在不同类别的任务中进行训练,可以提高模型的泛化能力,使其能够应对更多样化和复杂的情境。

多阶段学习的优势:它能够使模型逐步适应任务的复杂性,避免一开始就让模型直接面对过于困难的情况。这种分阶段的学习过程能够更好地引导模型学到有用的特征和知识,提高模型在真实场景中的性能。

迭代式内省与更新

为了对复杂工具进行更有针对性的训练,这个阶段通过动态构建数据集,根据模型内省的反馈,迭代地定制工具使用的训练数据。如图 2 所示,该阶段包括两个子阶段:实例生成(Instance Generation)和内省与更新(Updates with Introspective Feedback)。

  1. 实例生成: 首先建立一个工具存储库,包含了 110 个常用的工具和使用实例。这些实例是手动构建的,每个包括一个具体的提问和一个按照思维链格式构建的答案,至少涉及四个工具,以促使数据集的复杂性。接着,从工具存储库中随机选择 5 至 7 个工具,构成工具集 。然后,使用这些工具的演示作为提示,通过 ChatGPT 生成各种提问,并通过组合推理回答这些提问。由于复杂工具需要更多的训练数据,预先创建的数据集与训练过程中经过优化后的 LLM 不同步,因此需要生成更多有针对性的样本来不断更新数据集。

图片

▲表1 与其他工具使用数据集的比较

  1. 更新与内省反馈: 由于通过自指导生成的实例可能没有受到任何有针对性的训练指导,因此需要构建一个提示来指导实例生成。给定一个包含  个 token 的提问 ,首先检索一个工具集 ,然后将  提供给 LLM 生成回复。通过计算生成的回复  相对于  和  的生成概率,可以得到回复的生成困惑度 。困惑度表示生成的不确定性程度,因此具有更高困惑度的样本需要在后续训练中进行更多的训练。在内省反馈更新阶段,通过过滤具有高困惑度的实例,得到一个被筛选的实例集 。然后,这些被筛选的实例用于自指导提示,生成更多类似的工具使用实例进行进一步的训练。这个过程是迭代的,每个时期都使用更新后的数据集对模型进行训练,以动态改善工具使用的性能。

实验

总体性能

如表 2 的实验表明,Confucius 在已见和未见工具集上均取得显著优异的表现,相较于其他 Baseline 表现更为出色。在已见测试集中,Confucius 在工具选择方面实现了显著的改进,比 ChatGPT 的绝对改善为 4.99。这表明 Confucius 在正确选择工具方面具有潜在的强大性能。

图片

▲表2 整体实验结果比较

在组合推理方面,Confucius 在已见和未见工具集上相较于微调 baseline 有显著提升,同时超越了 ChatGPT。这表明 Confucius 在处理复杂任务时受益于链式思维的工具使用实例,为其性能提供了有效支持。

在未见工具集中,Confucius 胜过了 ChatGPT 等无微调方法,这证明 Confucius 具备有效的泛化工具使用能力。相较之下,其他微调 baseline 在从已见工具集推广到未见工具集时表现出性能下降,而 Confucius 的性能下降相对较小,这要归功于其迭代训练策略 ISIF,为 LLM 提供了更强大的工具使用技能。

此外,工具检索器的效果也得到了验证,实验结果显示该工具检索器能够有效地找到与真实情况相匹配的适当工具。人工评估结果也进一步印证了 Confucius 相对于其他方法的卓越性。

人工评估

人工评估的结果如表 3 所示。在两个方面,即可执行性和流畅性,Confucius始终优于 SOTA 工作。此外,与 ChatGPT 相比,本文的框架取得了可比甚至更好的结果,进一步验证了其有效性。两个评估指标的平均 Kappa 统计分别为 0.762 和 0.732,说明评估者之间存在一致性。

图片

▲表3 在可见和不可见测试集上的人工评估

多阶段训练的分析

在表 2 中,作者还进行了消融实验。可以看到所有的变体模型性能都下降了,这证实了作者在 Confucius 中提出的多阶段训练方法的有效性。相较于其他两个变体模型,去除跨类别训练的模型在工具选择得分方面的性能降低最为显著。这一现象表明,构建一个类似于实际场景的候选工具集以提高LLM的工具选择能力是非常必要的。

ISIF 的分析

为了进行公平比较,作者采用了一种与 ISIF 不同的方法,即根据高困惑度实例的内省反馈,随机抽取了一些实例用作自指导的提示,以生成新实例。然后,更新后的数据集用于训练 LLaMA,该模型与 Confucius 使用相同的基本模型。图 3 展示了在不同大小的初始数据集上训练的模型的性能。可以看到,本文提出的 ISIF 在每个数据集大小上的性能始终优于随机更新数据集的方法,这验证了根据内省反馈动态更新数据集的有效性。

图片

▲图3 Confucius 与变体模型的比较

不同基础模型的泛化

作者为了进一步探索提出的 Confucius 的鲁棒性,使用 Confucius 对其他两个开源LLM(LLaMA2-7B 和 Vicuna-7B)进行调优。正如表 2 所示,与相应的无微调版本相比,使用 Confucius 训练的两个模型在工具选择得分上都取得了较大的优势,这证明了该框架的泛化性。

总结

本文提出了一种名为孔子(Confucius)的工具学习框架,通过采用多阶段学习方法和迭代式内省与更新数据集(ISIF)策略,成功地提升了 LLM 在实际应用场景中掌握复杂工具的能力,从而有效改善了工具使用的效果。具体来说,作者通过从易到难的课程,即热身、同类和跨类别阶段,对 LLM 进行了微调。由于某些工具在不同场景中的使用方式不同,需要更多的训练来充分理解使用方式,因此引入了 ISIF,根据模型内省迭代更新工具使用训练数据集。

实验结果表明,孔子工具学习框架在实现 LLM 对多种工具的更智能学习方面取得了显著成果。这一框架不仅提高了模型在各项实验指标上的性能,而且通过多阶段学习和迭代自指导的结合,使得 LLM 更具适应性和灵活性,能够更好地应对实际应用场景中的各种挑战。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/585134.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

键盘字符(#键)显示错误

当屏幕上显示的键与键盘上按下的键不同时,尤其是 # 键。大多数情况下,此错误是由于 raspbian 和 NOOBS 软件的默认英国键盘配置所致。 解决方案: 要解决此问题,您需要将配置更改为您自己的键盘或语言的配置。这可以通过转到树莓派…

树莓派 ubuntu20.04下 python调讯飞的语音API,语音识别和语音合成

目录 1.环境搭建2.去讯飞官网申请密钥3.语音识别(sst)4.语音合成(tts)5.USB声卡可能报错 1.环境搭建 #环境说明:(尽量在ubuntu下使用, 本次代码均在该环境下实现) sudo apt-get install sox # 安装语音播放软件 pip …

Typora快捷键设置详细教程

文章目录 一、快捷键设置步骤二、设置快捷键简单案例参考资料 一、快捷键设置步骤 在typora软件中,快捷键的设置步骤主要为: 打开【文件】–>【偏好设置】,找到【通用】–>【打开高级设置】,找到 conf.user.json 文件。 然…

代码随想录刷题笔记(DAY3)

今日总结:虽然之前刷过链表,但这次做的是有些费力的,也有了更深的理解。整理完今天的 Vue 笔记就睡。。。 DAY 3 01. 移除链表元素(No. 203) 题目链接:https://leetcode.cn/problems/remove-linked-list-…

SpringBoot项目部署及多环境

1、多环境 2、项目部署上线 原始前端 / 后端项目宝塔Linux容器容器平台 3、前后端联调 4、项目扩展和规划 多环境 程序员鱼皮-参考文章 本地开发:localhost(127.0.0.1) 多环境:指同一套项目代码在把不同的阶段需要根据实际…

ADRC-跟踪微分器TD的Maltab实现及参数整定

目录 问题描述: 跟踪微分器TD基本概念: Matlab及其实现: 跟踪效果: 例1:跟踪信号 sin(t) 0.5*rand(1,1)。 例2:跟踪部分时段为方波的信号,具体形式见代码get_command。 参数整定&#xf…

(已解决)(pytorch指定了gpu但还是占用了一点0号gpu)以及错误(cuDNN error: CUDNN_STATUS_INTERNAL_ERROR)

文章目录 错误原因解决问题 错误原因 出现错误cuDNN error: CUDNN_STATUS_INTERNAL_ERROR,从这个名字就可以看出,出错原因其实有可能有很多种,我这里说一种比较常见的,就是:显存不足。 一个困惑点在于,在…

【数据结构】图论与并查集

一、并查集 1.原理 简单的讲并查集,就是查询两个个元素,是否在一个集合当中,这里的集合用树的形式进行表示。并查集的本质就是森林, 即多棵树。 我们再来简单的举个例子: 假设此时的你是大一新生,刚进入大学,肯定是…

php-fpm运行一段时间,内存不足

目录 一:原因分析 二:解决 三:观察系统情况 php-fpm运行一段时间,内存不足,是什么原因呢。 一:原因分析 1:首先php-fpm的配置 (1)启动的进程数 启动的进程数越多,占用内存越高; 2:其次…

HarmonyOS自学-Day4(TodoList案例)

目录 文章声明⭐⭐⭐让我们开始今天的学习吧!TodoList小案例 文章声明⭐⭐⭐ 该文章为我(有编程语言基础,非编程小白)的 HarmonyOS自学笔记,此类文章笔记我会默认大家都学过前端相关的知识知识来源为 HarmonyOS官方文…

1.NumPy 介绍

1.NumPy 介绍 1.1 NumPy 演变史 在 NumPy 之前,有两个 Python 数组包: Numeric 包 Numeric 包开发于 20 世纪 90 年代中期,在 Python 中提供了数组对象和数组感知函数。它由 C 语言编写,并与线性代数的标准快速实现相链接。它最…

nodejs微信小程序+python+PHP的林业信息管理系统的设计与实现-计算机毕业设计推荐

目 录 摘 要 I ABSTRACT II 目 录 II 第1章 绪论 1 1.1背景及意义 1 1.2 国内外研究概况 1 1.3 研究的内容 1 第2章 相关技术 3 2.1 nodejs简介 4 2.2 express框架介绍 6 2.4 MySQL数据库 4 第3章 系统分析 5 3.1 需求分析 5 3.2 系统可行性分析 5 3.2.1技术可行性:…

nodejs+vue+微信小程序+python+PHP的冷链物流配送系统-计算机毕业设计推荐

对于冷链物流信息调度系统所牵扯的管理及数据保存都是非常多的,例如管理员;首页、用户管理(管理员、客户、业务员、配送员)客户管理(货物信息、客户运输单、车辆信息、调度安排)这给管理者的工作带来了巨大…

Redisson依赖冲突记录

前言&#xff1a;项目使用的springboot项目为2.7.X 依赖冲突一&#xff1a;springboot 与 redisson版本冲突 项目中依赖了 Lock4j&#xff0c;此为苞米豆开源的分布式锁组件 <dependency><groupId>com.baomidou</groupId><artifactId>lock4j-redisso…

读算法霸权笔记07_筛选

1. 美国残疾人法案 1.1. 1990年 1.2. 公司在招聘时使用身体检查是非法的 1.3. 有某些心理健康问题的人被“亮了红灯”&#xff0c;他们因此没能找到一份正常的工作&#xff0c;过上正常的生活&#xff0c;这就使其进一步被社会孤立&#xff0c;而这正是《美国残疾人法案》要…

使用Halcon 采集图像并进行简单处理rgbl_to_gray/threshold/connection/fill_up

使用Halcon 采集图像并进行简单处理 文章目录 使用Halcon 采集图像并进行简单处理 下面介绍一个简单的采集图像的例子。在Halcon中利用图像采集接口&#xff0c;使用USB3.0相机实时拍摄图像。采集到图像后对图像进行简单的阀值分割处理&#xff0c;将有物体的区域标记出来。 &a…

3d光学轮廓仪测微光学器件应用及其重要意义

微光学器件是光学器件的重要分支&#xff0c;为光学通信、光传感、光计算等领域的发展提供重要支撑。微光学器件具有尺寸小、功耗低、低成本等优势&#xff0c;可以于电子器件集成&#xff0c;实现更高效的数据传输和信号处理。未来&#xff0c;随着微纳加工技术的进一步发展&a…

在 Golang 应用程序中管理多个数据库

掌握在 Golang 项目中处理多个数据库的艺术 在当前软件开发领域中&#xff0c;处理单个应用程序内的多个数据库的需求越来越普遍。具有强大功能的 Golang 是处理此类任务的绝佳解决方案&#xff0c;无论您是与多个数据源合作还是仅为增强组织和可扩展性而分隔数据。在本文中&a…

AI赋能金融创新:技术驱动的未来金融革命

人工智能&#xff08;AI&#xff09;作为一种技术手段&#xff0c;正逐渐改变金融行业的方方面面。从风险管理到客户体验&#xff0c;从交易执行到反欺诈&#xff0c;AI带来了许多创新和机遇。本文将探讨AI在金融领域的应用和其赋能的金融创新。 金融领域一直以来都面临着复杂的…

QT UI自动化测试(1)

一、框架选择 想结合公司产品搭建一套自动化测试框架&#xff0c;一方面自己学习用&#xff0c;一方面也希望跟公司业务结合起来&#xff0c;双赢。公司软件最多的产品是部署在Linux系统上&#xff0c;基于QT QML开发的UI&#xff0c;本来奔着免费的自动化框架去的&#xff0c;…