HUSKY:一个优化大语言模型多步推理的新代理框架

推理被高度认可为生成人工智能的下一个前沿领域。通过推理,我们可以将任务分解为更小的子集并单独解决这些子集。例如以前的论文:思维链、思维树、思维骨架和反射,都是最近解决LLM推理能力的一些技术。此外推理还涉及一些外围功能,例如访问外部数据或工具。在最近的几年里,我们已经看到模型在特定的推理技术中表现得非常好,但它们无法跨领域推广。这是Meta AI、Allen Institute of AI和University of Washington的研究人员在最近一篇论文中所要解决的问题。

HUSKY是一个开源语言代理,设计用于处理各种复杂的任务,包括数字、表格和基于知识的推理。与其他专注于特定任务或使用专有模型的代理不同,HUSKY在统一的框架内运行。它分为两个阶段:1、生成解决任务所需的下一个行动;2、它使用专家模型执行此操作,并在此过程中更新解决方案。

这个框架的名字来源于 “哈士奇”因为雪橇犬在拉雪橇时是一起来合作前进的,并且在前进的过程中要针对路面情况有自己的判断和决定,这非常符合这个代理的工作思路。但是看到这个名字我总感觉这个代理不太聪明的样子。

HUSKY

HUSKY采用详细的行动计划来处理复杂的任务,它先生成下一步,其中包括所需的操作和工具。然后使用专门的模型执行操作,更新解决方案状态。这种方法允许HUSKY像经典规划系统一样运行,使用大型语言模型(llm)来优化性能。

对于需要多步推理的任务,HUSKY预测下一个动作和相应的工具,然后用专家模型执行。这个过程一直持续到找到最终答案为止。HUSKY使用多个llm来协调专家模型,类似于一组哈士奇一起拉雪橇。

HUSKY在生成动作和执行动作之间迭代,直到达到终端状态。动作生成器预测下一个高级步骤,并从预定义集合(代码、数学、搜索或常识)中分配一个工具。根据指定的工具,HUSKY调用专家模型,执行操作,并更新解决方案状态,可选择将输出转换为自然语言。

训练

HUSKY的训练包括使用教师模型创建工具集成解决方案轨迹。这些轨迹有助于为动作生成器和专家模型构建训练数据。训练管道是简化和通用的,确保HUSKY可以处理广泛的任务,而无需任务特定的假设。

推理

在推理过程中,HUSKY集成其训练模块来解决新的多步骤任务。动作生成器确定第一步和工具,然后将其传递给专家模型,由专家模型产生输出。这个迭代过程一直持续到最终解决方案的实现,专家模型为每一步提供特定的输出。

表现评估

评估HUSKY包括测试其在复杂推理任务上的推理能力并对结果进行评分。现有数据集通常缺乏HUSKY所需工具的多样性,因此作者创建了一个新的评估集HUSKYQA来测试混合工具推理。这组任务包括需要检索缺失的知识和执行数值推理的任务。尽管使用较小的模型,但HUSKY匹配或超过了GPT-4等前沿模型,证明了它的有效性。

在需要多步骤推理和工具使用的各种任务中,HUSKY与其他基线语言代理一起接受了训练和评估。这些任务的一半用于根据工具集成解决方案路径训练HUSKY的模块,而另一半用于测试训练结果。最后的验证阶段则都是用零样本的方式进行评估。

1、数值推理任务

数值推理任务包括从小学到高中比赛水平的数学数据集。这些数据集包括GSM-8K、MATH、Google DeepMind数学任务和MathQA,都取自LILA基准。对于Google DeepMind数学,重点是代数、基础数学、微积分、乘法/除法和数论子集。对于MathQA,子集包括增益、通用、几何、物理和概率。使用GSM-8K和MATH进行训练,总共提供13.7K的工具集成解决方案路径。

2、表格推理任务

表格推理任务涉及TabMWP,一个表格数学问题的数据集,FinQA和TAT-QA,这两个数据集都是金融问答数据集,以及MultimodalQA的测试问题子集,这需要理解文本和表格数据。TabMWP和FinQA用于训练和评估,TAT-QA和MultimodalQA用于评估。这些数据集总共提供了7.2万个工具集成的解决方案路径。

3、基于知识的推理任务

基于知识的推理任务包括HotpotQA、CWQ、musque、Bamboogle和StrategyQA。HotpotQA和Bamboogle用于评估,CWQ和musque用于训练,两者都使用StrategyQA。这个集合产生了总共7K个工具集成的解决方案路径。

4、评估模型

评估包括以下模型:

动作生成器:对于动作生成器,采用了LLAMA-2-7B, 13B和LLAMA-3-8B。从训练集中删除了不正确的解决方案路径,从而在数字、表格、基于知识和混合工具的推理任务中产生了110K个实例。动作生成器在这个多任务训练集上进行了充分的微调。

代码生成器:以其强大的编码能力而闻名的deepseekcode - 7b - instruct - v1.5模型被选为微调代码生成器。使用正确的解决方案路径提取所有必要的代码,从而产生用于训练的44K代码实例。

数学推理器:选择DEEPSEEKMATH-7B-INSTRUCT模型是因为它具有先进的数学推理能力。正确的解决方案路径为微调数学推理器提供了30K数学解决方案实例。

查询生成器:查询生成器使用LLAMA-2-7B作为基本模型。正确的解决方案路径产生22K搜索查询实例,用于微调查询生成器。

结果如下:

可以看到HUSKY通过整合不同的高效模型,并为不同的任务分配了不同的专家代理,为复杂的推理任务提供了一个通用的、开源的解决方案。它的整体方法,将行动生成和执行与专家模型相结合,使其能够有效地处理各种挑战。从各种评估中可以看出,HUSKY赫斯基的表现突出了其重新定义语言代理如何解决复杂问题的潜力。

https://avoid.overfit.cn/post/9c05e34dc60645bfb6f6a47df294b5e8

作者:Jesus Rodriguez

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/31276.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GPT-4o目前暂无音频输出的能力

OpenAI的发布会惊艳的操作,近乎实时的语音对话,让很多人向往。 但实际上Chat对话时,尚无输出音频的能力,可能还未开放。 这是国外的一个开发小哥的交流帖子,可能还需要些时日才能用的上实时的音频输出。 不过当前Op…

OpenGL Super Bible 7th-Primitives, Pipelines, and Pixels图元、渲染管线与像素

简介 本文的原版为《OpenGL Super Bible 7th》,是同事给我的,翻译是原文+译文的形势。文章不属于机器直译,原因在于语言不存在一一对应的关系,我将尽可能的按照中国人看起来舒服的方式来翻译这些段子,如果段子让你感到身心愉悦,那还劳烦点个关注,追个更。如果我没有及时…

如何解决压缩软件无法打开文件的常见问题

压缩软件是我们日常生活和工作中常用的工具,无论是传输文件、节省存储空间还是组织数据,它们都能发挥重要作用。然而,偶尔也会遇到压缩软件无法打开文件的情况,这可能令人困惑和沮丧。本文将探讨几种常见原因,并提供解…

Ubuntu 20.04安装显卡驱动、CUDA和cuDNN(2024.06最新)

一、安装显卡驱动 1.1 查看显卡型号 lspci | grep -i nvidia我们发现输出的信息中有Device 2230,可以根据这个信息查询显卡型号 查询网址:https://admin.pci-ids.ucw.cz/mods/PC/10de?actionhelp?helppci 输入后点击Jump查询 我们发现显卡型号为RTX …

双阶段目标检测算法

双阶段目标检测算法 本文将系统的过一遍双阶段目标检测的经典算法,文献阅读顺序如下: R-CNN → \rightarrow → SPPnet → \rightarrow → Fast R-CNN → \rightarrow → Faster R-CNN → \rightarrow → Mask R-CNN R-CNN 一、研究背景 R-CNN可…

PHP转Go系列 | 条件循环的使用姿势

大家好,我是码农先森。 条件 在 PHP 语言中条件控制语句,主要有 if、elseif、else 和 switch 语句 // if、elseif、else 语句 $word "a"; if ($word "a") {echo "a"; } elseif ($word "b") {echo "b&…

手机怎么恢复回收站清空的照片?这里有找回相册的3个重要指南

生活里,从家庭聚会的美好瞬间到重要的工作文件,都在我们的手机相册中留下了痕迹。然而意外常常降临,这些数据也有可能突然消失不见,并且恢复回收站清空的照片失败的情况也不少见。请别着急,在这篇文章中,我…

LeetCode刷题之HOT100之LRU缓存

2024/6/21 酷暑难耐,离开空调我将不知道能否《活着》,昨天跑步感觉全身的热无法排出去,出门那种热浪一阵一阵打过来,一点风都舍不得给我。早早的来到实验室,也没多早,九点哈哈,做题啦&#xff0…

Python联动Mysql

首先配置pip源(不然在安装库的时候会很慢!!!) pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/安装必要库: mysql.connector MySQL 连接器/ODBC 是 MySQL ODBC 驱动程序(以前称为 MyODBC 驱动程序)系列的名称,它使…

光大证券-放量恰是入市时:成交量择时初探

核心算法 1. 在熊市中,各成交量时序排名出现的频次基本随排名变小而单调增大;在牛市中,各成交量时序排名出现的频次基本随排名变小而单调减少;而在震荡市中,各成交量时序排名出现的频次两头大,中间小&…

企智汇:弱电智能化项目工程项目管理系统助力企业项目管理!

在当今数字化时代,弱电智能化项目的复杂性和挑战性日益增加,高效的项目管理变得尤为重要。企智汇弱电智能化项目工程项目管理系统凭借其业务流程化、流程数据化、数据可视化、业财一体化及成本精细化等特性,为项目全生命周期管理提供了全面而…

MacOS设备远程登录配置结合内网穿透实现异地ssh远程连接

文章目录 前言1. MacOS打开远程登录2. 局域网内测试ssh远程3. 公网ssh远程连接MacOS3.1 MacOS安装配置cpolar3.2 获取ssh隧道公网地址3.3 测试公网ssh远程连接MacOS 4. 配置公网固定TCP地址4.1 保留一个固定TCP端口地址4.2 配置固定TCP端口地址 5. 使用固定TCP端口地址ssh远程 …

AI写作如何助力大学生完成毕业论文?

近年来,随着科技的快速发展,AI已经逐渐渗透到了生活中的方方面面,其中也包含着学术领域。 作为学生党,你是否还在为期末论文,大学生实践报告而发愁? 有了这些AI写作神器,大学生们再也不用在期…

windows系统停止更新办法

windows系统停止更新 双击启动下载的文件 然后再回到系统-更新这里,选择日期就行。

c++ 正则匹配得使用

标头&#xff1a;#include <regex> 相关函数&#xff1a; regex_match regex_replace regex_search 名称描述regex_match测试正则表达式是否与整个目标字符串相完全匹配。regex_replace替换匹配正则表达式。regex_search搜索正则表达式匹配项。 1. regex_search 成功搜…

『FPGA通信接口』LVDS接口(2)硬件设计

文章目录 1.LVDS原理2.xilinx器件对于LVDS的支持3.LVDS信号PCB布线要求4.传送门 1.LVDS原理 如上图所LVDS的工作原理示意图&#xff0c;其Driver驱动器由一个恒流源是LVDS发送端&#xff08;通常为 3.5mA&#xff09;驱动一对差分信号线组成。驱动状态会翻转就产生正负电压的变…

“Docker入门指南:概念与安装详解“

目录 # 概念 1. Docker常见问题 2. docker概念和安装 2.1 Docker的组成 2.2 Docker 组件及关系表 2.3 docker核心思想 2.4 docker镜像与容器两个核心概念 2.5 容器概念图 2.6 docker核心技术 2.6.1 镜像 (Image) 概述 关系 示例 2.6.2 容器 (Container) 概述 关…

android在线阅读代码网站

android在线阅读代码社区&#xff1a; Android 1.6 到 Android 10 的源码&#xff1a; Android OS 在线源代码 - https://www.androidos.net.cn10.0.0_r6 - Android社区 - https://www.androidos.net.cn/ AndroidXRef https://cs.android.com/ https://cs.android.com/android…

Linux 软链接

# 语法 ln -s <文件夹or文件的真实路径> <自定义路径别名> # 例子 ln -s /etc/sysconfig/network-scripts/ifcfg-ens33 ~/ens33

如何选择合适的半桥栅极驱动芯片?KP8530X,KP85402,KP85211A满足你对半桥栅极驱动一切需求

半桥栅极驱动系列KP8530X&#xff0c;KP85402&#xff0c;KP85211A在功率电子领域展现出卓越的性能和可靠的品质。具备诸多显著优势。首先&#xff0c;半桥栅极驱动系列KP8530X&#xff0c;KP85402&#xff0c;KP85211A拥有出色的耐压性能&#xff0c;可承受高达数百伏的电压&a…