HUSKY:一个优化大语言模型多步推理的新代理框架

推理被高度认可为生成人工智能的下一个前沿领域。通过推理,我们可以将任务分解为更小的子集并单独解决这些子集。例如以前的论文:思维链、思维树、思维骨架和反射,都是最近解决LLM推理能力的一些技术。此外推理还涉及一些外围功能,例如访问外部数据或工具。在最近的几年里,我们已经看到模型在特定的推理技术中表现得非常好,但它们无法跨领域推广。这是Meta AI、Allen Institute of AI和University of Washington的研究人员在最近一篇论文中所要解决的问题。

HUSKY是一个开源语言代理,设计用于处理各种复杂的任务,包括数字、表格和基于知识的推理。与其他专注于特定任务或使用专有模型的代理不同,HUSKY在统一的框架内运行。它分为两个阶段:1、生成解决任务所需的下一个行动;2、它使用专家模型执行此操作,并在此过程中更新解决方案。

这个框架的名字来源于 “哈士奇”因为雪橇犬在拉雪橇时是一起来合作前进的,并且在前进的过程中要针对路面情况有自己的判断和决定,这非常符合这个代理的工作思路。但是看到这个名字我总感觉这个代理不太聪明的样子。

HUSKY

HUSKY采用详细的行动计划来处理复杂的任务,它先生成下一步,其中包括所需的操作和工具。然后使用专门的模型执行操作,更新解决方案状态。这种方法允许HUSKY像经典规划系统一样运行,使用大型语言模型(llm)来优化性能。

对于需要多步推理的任务,HUSKY预测下一个动作和相应的工具,然后用专家模型执行。这个过程一直持续到找到最终答案为止。HUSKY使用多个llm来协调专家模型,类似于一组哈士奇一起拉雪橇。

HUSKY在生成动作和执行动作之间迭代,直到达到终端状态。动作生成器预测下一个高级步骤,并从预定义集合(代码、数学、搜索或常识)中分配一个工具。根据指定的工具,HUSKY调用专家模型,执行操作,并更新解决方案状态,可选择将输出转换为自然语言。

训练

HUSKY的训练包括使用教师模型创建工具集成解决方案轨迹。这些轨迹有助于为动作生成器和专家模型构建训练数据。训练管道是简化和通用的,确保HUSKY可以处理广泛的任务,而无需任务特定的假设。

推理

在推理过程中,HUSKY集成其训练模块来解决新的多步骤任务。动作生成器确定第一步和工具,然后将其传递给专家模型,由专家模型产生输出。这个迭代过程一直持续到最终解决方案的实现,专家模型为每一步提供特定的输出。

表现评估

评估HUSKY包括测试其在复杂推理任务上的推理能力并对结果进行评分。现有数据集通常缺乏HUSKY所需工具的多样性,因此作者创建了一个新的评估集HUSKYQA来测试混合工具推理。这组任务包括需要检索缺失的知识和执行数值推理的任务。尽管使用较小的模型,但HUSKY匹配或超过了GPT-4等前沿模型,证明了它的有效性。

在需要多步骤推理和工具使用的各种任务中,HUSKY与其他基线语言代理一起接受了训练和评估。这些任务的一半用于根据工具集成解决方案路径训练HUSKY的模块,而另一半用于测试训练结果。最后的验证阶段则都是用零样本的方式进行评估。

1、数值推理任务

数值推理任务包括从小学到高中比赛水平的数学数据集。这些数据集包括GSM-8K、MATH、Google DeepMind数学任务和MathQA,都取自LILA基准。对于Google DeepMind数学,重点是代数、基础数学、微积分、乘法/除法和数论子集。对于MathQA,子集包括增益、通用、几何、物理和概率。使用GSM-8K和MATH进行训练,总共提供13.7K的工具集成解决方案路径。

2、表格推理任务

表格推理任务涉及TabMWP,一个表格数学问题的数据集,FinQA和TAT-QA,这两个数据集都是金融问答数据集,以及MultimodalQA的测试问题子集,这需要理解文本和表格数据。TabMWP和FinQA用于训练和评估,TAT-QA和MultimodalQA用于评估。这些数据集总共提供了7.2万个工具集成的解决方案路径。

3、基于知识的推理任务

基于知识的推理任务包括HotpotQA、CWQ、musque、Bamboogle和StrategyQA。HotpotQA和Bamboogle用于评估,CWQ和musque用于训练,两者都使用StrategyQA。这个集合产生了总共7K个工具集成的解决方案路径。

4、评估模型

评估包括以下模型:

动作生成器:对于动作生成器,采用了LLAMA-2-7B, 13B和LLAMA-3-8B。从训练集中删除了不正确的解决方案路径,从而在数字、表格、基于知识和混合工具的推理任务中产生了110K个实例。动作生成器在这个多任务训练集上进行了充分的微调。

代码生成器:以其强大的编码能力而闻名的deepseekcode - 7b - instruct - v1.5模型被选为微调代码生成器。使用正确的解决方案路径提取所有必要的代码,从而产生用于训练的44K代码实例。

数学推理器:选择DEEPSEEKMATH-7B-INSTRUCT模型是因为它具有先进的数学推理能力。正确的解决方案路径为微调数学推理器提供了30K数学解决方案实例。

查询生成器:查询生成器使用LLAMA-2-7B作为基本模型。正确的解决方案路径产生22K搜索查询实例,用于微调查询生成器。

结果如下:

可以看到HUSKY通过整合不同的高效模型,并为不同的任务分配了不同的专家代理,为复杂的推理任务提供了一个通用的、开源的解决方案。它的整体方法,将行动生成和执行与专家模型相结合,使其能够有效地处理各种挑战。从各种评估中可以看出,HUSKY赫斯基的表现突出了其重新定义语言代理如何解决复杂问题的潜力。

https://avoid.overfit.cn/post/9c05e34dc60645bfb6f6a47df294b5e8

作者:Jesus Rodriguez

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/31276.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GPT-4o目前暂无音频输出的能力

OpenAI的发布会惊艳的操作,近乎实时的语音对话,让很多人向往。 但实际上Chat对话时,尚无输出音频的能力,可能还未开放。 这是国外的一个开发小哥的交流帖子,可能还需要些时日才能用的上实时的音频输出。 不过当前Op…

OpenGL Super Bible 7th-Primitives, Pipelines, and Pixels图元、渲染管线与像素

简介 本文的原版为《OpenGL Super Bible 7th》,是同事给我的,翻译是原文+译文的形势。文章不属于机器直译,原因在于语言不存在一一对应的关系,我将尽可能的按照中国人看起来舒服的方式来翻译这些段子,如果段子让你感到身心愉悦,那还劳烦点个关注,追个更。如果我没有及时…

如何解决压缩软件无法打开文件的常见问题

压缩软件是我们日常生活和工作中常用的工具,无论是传输文件、节省存储空间还是组织数据,它们都能发挥重要作用。然而,偶尔也会遇到压缩软件无法打开文件的情况,这可能令人困惑和沮丧。本文将探讨几种常见原因,并提供解…

模板类与继承

1模板类继承普通类&#xff08;常见&#xff09; #include<iostream> using namespace std; class AA { public:int m_a;AA(int a) :m_a(a) { cout << "调用了AA的构造函数\n"; }void func1() { cout << "调用func1&#xff08;&#xff09;…

Zookeeper 集群如何实现数据一致性和顺序性原理?

Zookeeper 集群如何实现数据一致性和顺序性原理? 在 Zookeeper 集群中,确保数据的完整性和一致性是其核心功能之一。Zookeeper 通过一套分布式 协调机制来保证在多节点环境下,所有节点的数据是一致的,即使在网络分区或节点故障的情况下,依 然能够提供一致性服务。以下是实…

Ubuntu 20.04安装显卡驱动、CUDA和cuDNN(2024.06最新)

一、安装显卡驱动 1.1 查看显卡型号 lspci | grep -i nvidia我们发现输出的信息中有Device 2230&#xff0c;可以根据这个信息查询显卡型号 查询网址&#xff1a;https://admin.pci-ids.ucw.cz/mods/PC/10de?actionhelp?helppci 输入后点击Jump查询 我们发现显卡型号为RTX …

双阶段目标检测算法

双阶段目标检测算法 本文将系统的过一遍双阶段目标检测的经典算法&#xff0c;文献阅读顺序如下&#xff1a; R-CNN → \rightarrow → SPPnet → \rightarrow → Fast R-CNN → \rightarrow → Faster R-CNN → \rightarrow → Mask R-CNN R-CNN 一、研究背景 R-CNN可…

PHP转Go系列 | 条件循环的使用姿势

大家好&#xff0c;我是码农先森。 条件 在 PHP 语言中条件控制语句&#xff0c;主要有 if、elseif、else 和 switch 语句 // if、elseif、else 语句 $word "a"; if ($word "a") {echo "a"; } elseif ($word "b") {echo "b&…

java程序乱码的问题

【问题点】 我的需求是对接别的系统的接口&#xff0c;然后别的系统传过来的数据是utf8,然后我自己的系统是gbk字符集&#xff0c;同理其他的字符集也可以这么处理 多种方法&#xff1a; 如果你的系统字符集是 GBK&#xff0c;而需要处理来自其他系统接口的 UTF-8 编码数据&…

手机怎么恢复回收站清空的照片?这里有找回相册的3个重要指南

生活里&#xff0c;从家庭聚会的美好瞬间到重要的工作文件&#xff0c;都在我们的手机相册中留下了痕迹。然而意外常常降临&#xff0c;这些数据也有可能突然消失不见&#xff0c;并且恢复回收站清空的照片失败的情况也不少见。请别着急&#xff0c;在这篇文章中&#xff0c;我…

第三十一篇-Ollama+OneAPI基本集成配置

本文介绍使用oneapiollama实现openai接口实现 环境要求 Docker version 26.1.3 具体安装熟悉的&#xff0c;百度安装oneapi mkdir /home/oneapi/data docker run --name one-api -d --restart always -p 3000:3000 -e TZAsia/Shanghai -v /home/oneapi/data:/data justsong/…

教师工资管理系统(python,save保存文件)

我大学上课的时候老师还让写python程序代码&#xff0c;我选了个教师工资管理系统的课题&#xff0c;因为这个选的人少。虽然有一周的准备时间&#xff0c;我还是选择了在提交的前一天的下午开始做&#xff0c;做到了第二天的三点才写完。 这是条件 选题八&#xff1a;教师工资…

微信小程序修改标题

要修改微信小程序页面的标题和调整字体大小&#xff0c;你需要对 app.json 和页面对应的 json 文件进行配置。 修改页面标题 打开 app.json 文件&#xff0c;找到 pages 字段&#xff0c;确认需要修改的页面路径。打开对应页面的 .json 文件&#xff08;例如&#xff0c;pages/…

CentOS7设置自动定时重启

1.编辑启用配置文件 vi /etc/crontab 2.设置定时任务 SHELL/bin/bash PATH/sbin:/bin:/usr/sbin:/usr/bin MAILTOroot # 详细使用方法# 工作定义示例:# .---------------- 分钟 (0 - 59)# | .------------- 小时 (0 - 23)# | | .---------- 一个月中的第几天 (1 - 31)# …

React/Vue项目-请求文件封装(Axios,WebSocket)

一、Axios 1、Axios封装&#xff08;request.js&#xff09; import axios from "axios";// 开发环境配置 const baseURL "/api";// 生产环境配置 // const baseURL http://192.168.0.1:9000// 创建axios实例 const http axios.create({baseURL: base…

【Android】代码中将 SVG 图像转换颜色

要在代码中将 SVG 图像转换为黑色&#xff0c;你可以使用一个库&#xff0c;例如 AndroidSVG 或 SVG-Android。以下是一个简单的示例代码&#xff0c;展示了如何通过代码方式将 SVG 图像改为黑色&#xff1a; // 导入 AndroidSVG 库 import com.caverock.androidsvg.SVG; impo…

【docker】常用指令-表格整理

以下列出的指令是Docker中常用的命令&#xff0c;但并不是全部。Docker的指令非常丰富&#xff0c;可以根据具体的需求和场景选择合适的指令。同时&#xff0c;每个指令都有很多选项和参数可以使用&#xff0c;可以通过 docker COMMAND --help 来获取更详细的信息。 一、容器命…

LeetCode刷题之HOT100之LRU缓存

2024/6/21 酷暑难耐&#xff0c;离开空调我将不知道能否《活着》&#xff0c;昨天跑步感觉全身的热无法排出去&#xff0c;出门那种热浪一阵一阵打过来&#xff0c;一点风都舍不得给我。早早的来到实验室&#xff0c;也没多早&#xff0c;九点哈哈&#xff0c;做题啦&#xff0…

Python联动Mysql

首先配置pip源(不然在安装库的时候会很慢!!!) pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/安装必要库: mysql.connector MySQL 连接器/ODBC 是 MySQL ODBC 驱动程序&#xff08;以前称为 MyODBC 驱动程序&#xff09;系列的名称&#xff0c;它使…

智能返利系统:探索个性化推荐技术的架构之道

智能返利系统&#xff1a;探索个性化推荐技术的架构之道 大家好&#xff0c;我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编&#xff0c;也是冬天不穿秋裤&#xff0c;天冷也要风度的程序猿&#xff01; 在当今的电子商务世界中&#xff0c;购物返利系统已经…