Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models

本文是LLM系列文章的内容,针对《Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models》的翻译。

工具文档赋能大模型零样本的工具使用

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 实验设置
    • 3.1 常规的工作流
    • 3.2 工具使用提示方法
    • 3.3 评估任务
  • 4 实证研究结果
    • 4.1 文档避开了示范的必要性
    • 4.2 使用文档可以有效的扩展工具
    • 4.3 使用新的照片与视频工具即插即用
    • 4.4 性能与文档质量
  • 5 结论

摘要

如今,大型语言模型(LLM)通过提供一些工具用法的演示来学习使用新工具。不幸的是,演示很难获得,如果选择了错误的演示,可能会导致不希望的有偏见的使用。即使在极少数情况下,演示很容易获得,也没有原则性的选择协议来确定提供多少演示以及提供哪些演示。随着任务变得越来越复杂,选择搜索组合增长,并且总是变得棘手。我们的工作提供了一种替代演示的方法:工具文档。我们提倡使用工具文档——对单个工具使用的描述——而不是演示。我们通过对视觉和语言模式中的6项任务的三个主要实证发现来证实我们的说法。首先,在现有的基准测试中,只有工具文档的零样本提示就足以引发正确的工具使用,实现与很少的零样本提示相当的性能。其次,在一个新收集的具有数百个可用工具API的真实工具使用数据集上,我们表明工具文档比演示更有价值,零样本文档显著优于没有文档的小样本。第三,我们强调了工具文档的好处,通过使用刚刚发布的未公开的最先进模型作为工具来处理图像生成和视频跟踪。最后,我们强调了使用工具文档自动启用新应用程序的可能性:通过只使用GroundingDino、Stable Diffusion、XMem和SAM的文档,LLM可以重新发明刚刚发布的Grounded SAM和Track Anything模型的功能。

1 引言

2 相关工作

3 实验设置

3.1 常规的工作流

3.2 工具使用提示方法

3.3 评估任务

4 实证研究结果

4.1 文档避开了示范的必要性

4.2 使用文档可以有效的扩展工具

4.3 使用新的照片与视频工具即插即用

4.4 性能与文档质量

5 结论

在本文中,我们检查了工具文档在使用LLM启用零样本工具方面的有效性。我们首先表明,当提供工具文档时,LLM可以实现与小样本同类产品相当或更好的性能。然后,我们仅通过文档在新收集的API上扩展到一个更大的工具集。通过简单地插入新工具及其文档,LLM能够在无需进一步演示的情况下处理图像编辑和视频跟踪中看不见的任务,并复制最近流行项目的功能,这表明了自动知识发现的潜力。总的来说,我们通过关注LLM在文档中的内部规划和推理能力,而不是通过演示明确指导其行为,为LLM的工具使用提供了新的视角。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/23261.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

node debian 镜像 new Date 获取时间少 8 小时问题

问题 在 node debian 镜像中,用 (new Date()).getHours() 与系统时间(东 8 区)少了 8 小时 系统时间 $ node > (new Date()).getHours() 11容器中的时间 $ node > (new Date()).getHours() 3原 Dockerfile FROM node:20.5-bullsey…

snap xxx has “install-snap“ change in progress

error description * 系重复安装,进程冲突 solution 展示snap的改变 然后sudo snap abort 22即可终止该进程 之后重新运行install command~~ PS: ubuntu有时候加载不出来,执行resolvectl flush-caches,清除dns缓存…

用python编写的软件有哪些,编写python 用什么软件

大家好,小编来为大家解答以下问题,用python编写的软件有哪些,编写python 用什么软件,现在让我们一起来看看吧! 随着互联网的迅速发展,新技术不断创新,万物互联的时代,企业对IT人员的…

【博客687】k8s informer的list-watch机制剖析

k8s informer的list-watch机制剖析 1、list-watch场景: client-go中的reflector模块首先会list apiserver获取某个资源的全量信息,然后根据list到的rv来watch资源的增量信息。希望使用client-go编写的控制器组件在与apiserver发生连接异常时&#xff0c…

【51单片机】晨启科技,酷黑版,音乐播放器

四、音乐播放器 任务要求: 设计制作一个简易音乐播放器(通过手柄板上的蜂鸣器发声,播放2到4首音乐),同时LED模块闪烁,给人视、听觉美的感受。 评分细则: 按下播放按键A6开始播放音乐&#xff0…

SpringCloud入门Day01-服务注册与发现、服务通信、负载均衡与算法

SpringCloudNetflix入门 一、应用架构的演变 伴随互联网的发展,使用互联网的人群越来越多,软件应用的体量越来越大和复杂。而传统单体应用 可能不足以支撑大数据量以及发哦并发场景应用的框架也随之进行演变从最开始的单体应用架构到分布式&#xff08…

18. SpringBoot 如何在 POM 中引入本地 JAR 包

❤️ 个人主页:水滴技术 🌸 订阅专栏:成功解决 BUG 合集 🚀 支持水滴:点赞👍 收藏⭐ 留言💬 Spring Boot 是一种基于 Spring 框架的轻量级应用程序开发框架,它提供了快速开发应用程…

Palo Alto Networks® PA-220R 下一代防火墙 确保恶劣工况下的网络安全

一、主要安全功能 1、每时每刻在各端口对全部应用进行分类 • 将 App-ID 用于工业协议和应用,例如 Modbus、 DNP3、IEC 60870-5-104、Siemens S7、OSIsoft PI 等。 • 不论采用何种端口、SSL/SSH 加密或者其他规避技术,都会识别应用。 • 使用…

面试之快速学习c++11-函数模版的默认模版参数,可变模版,tuple

//学习地址&#xff1a; http://c.biancheng.net/view/3730.html 函数模版的默认模版参数 在 C98/03 标准中&#xff0c;类模板可以有默认的模板参数&#xff0c;如下&#xff1a; template <typename T, typename U int, U N 0> struct TestTemplateStruct {};但是…

CSS水平垂直居中

1.利用定位 margin:auto 2.flex布局 3.grid布局 一、利用positionmargin:auto <style>.outer {position: relative; /*父亲相对定位*/width: 200px;height: 200px;background-color: red;}.inner {position: absolute; /*儿子绝对定位*/top: 0;bottom: 0;left: 0;ri…

Python GUI编程(Tkinter)

Python GUI编程(Tkinter) Python 提供了多个图形开发界面的库&#xff0c;几个常用 Python GUI 库如下&#xff1a; Tkinter&#xff1a; Tkinter 模块(Tk 接口)是 Python 的标准 Tk GUI 工具包的接口 .Tk 和 Tkinter 可以在大多数的 Unix 平台下使用,同样可以应用在 Windows …

【硬件设计】模拟电子基础三--放大电路

模拟电子基础三--放大电路 一、集成运算放大器1.1 定义、组成与性能1.2 电流源电路1.3 差动放大电路1.4 理想运算放大器 二、集成运算放大器的应用2.1 反向比例运算电路2.2 同向比例运算电路2.3 反向加法运算电路2.4 反向减法运算电路2.5 积分运算电路2.6 微分运算电路2.7电压比…

weaviate入门安装与部署

官方教程 weaviate Introduction 安装 参考weaviate/installation&#xff0c;weaviate的安装有三种方案&#xff1a; 在本地安装docker build拉取镜像安装买WCS的weaviate服务 实践中&#xff0c;为了加快部署速度&#xff0c;我们用docker build拉取了一个镜像安装&#…

浅析大数据时代下的视频技术发展趋势以及AI加持下视频场景应用

视频技术的发展可以追溯到19世纪初期的早期实验。到20世纪初期&#xff0c;电视技术的发明和普及促进了视频技术的进一步发展。 1&#xff09;数字化&#xff1a;数字化技术的发明和发展使得视频技术更加先进。数字电视信号具有更高的清晰度和更大的带宽&#xff0c;可以更快地…

软考高级架构师——2、操作系统

一、进程管理 • 进程的状态&#xff08;★&#xff09; • 进程的同步与互斥&#xff08;★★★★&#xff09; 临界资源&#xff1a;诸进程间需要互斥方式对其进行共享的资源&#xff0c;如打印机、磁带机等 临界区&#xff1a;每个进程中访问临界资源的那段代码称为临界区…

STM32(HAL)串口中断接收

目录 1、简介 2 基础配置 2.1.1 SYS配置 2.1.2 RCC配置 2.2 串口外设配置 2.3 项目生成 3、KEIL端程序整合 1、简介 本文对HAL串口中断函数进行介绍。 2 基础配置 2.1.1 SYS配置 2.1.2 RCC配置 2.2 串口外设配置 2.3 项目生成 3、KEIL端程序整合 首先在main.c文件中进行…

【云原生】k8s中Contrainer 生命周期回调/策略/指针学习

个人主页&#xff1a;征服bug-CSDN博客 kubernetes专栏&#xff1a;kubernetes_征服bug的博客-CSDN博客 目录 1 容器生命周期 2 容器生命周期回调/事件/钩子 3 容器重启策略 4 自定义容器启动命令 5 容器探针 1 容器生命周期 Kubernetes 会跟踪 Pod 中每个容器的状态&am…

根据VCF文件探测差异SNP并设计引物序列

根据VCF设计Marker序列 问题描述&#xff1a;如果有两个样品的测序数据&#xff0c;并通过GATK等上游分析得到了变异位点信息&#xff0c;现在我想要找任意两个样品的差异SNP&#xff0c;并提取该位置上下游50bp序列&#xff0c;用于设计引物&#xff0c;应该怎么做&#xff1f…

C++和Lua交互总结

C和Lua交互总结 Chapter1. C和Lua交互总结一、Lua与C的交互机制——Lua堆栈二、堆栈的操作三、C 调用 Lua1&#xff09;C获取Lua值2&#xff09;C调用Lua函数示例&#xff1a; 四、Lua 调用 C包装C函数 最后总结一下 Chapter1. C和Lua交互总结 原文链接&#xff1a;https://bl…

c++实现Qt对象树机制

文章目录 对象树是什么使用对象树的好处使用c实现对象树 对象树是什么 我们常常听到 QObject 会用对象树来组织管理自己&#xff0c;那什么是对象树&#xff1f;  这个概念非常好理解。因为 QObject 类就有一个私有变量 QList<QObject *>&#xff0c;专门存储这个类的子…