论文笔记--Toolformer: Language Models Can Teach Themselves to Use Tools

1. 文章简介
2. 文章概括
3 文章重点技术
- 3.1 Toolformer
- 3.2 APIs
4. 文章亮点
5. 原文传送门

1. 文章简介

标题：Toolformer: Language Models Can Teach Themselves to Use Tools
作者：Timo Schick, Jane Dwivedi-Yu, Roberto Dessì, Roberta Raileanu, Maria Lomeli, Luke Zettlemoyer, Nicola Cancedda, Thomas Scialom
日期：2023
期刊：arxiv preprint

2. 文章概括

文章给出了一种可以自动调用API的LLM方法“Toolformer”，该工具可以自行决定是否调用API，何时调用API以及调用什么API，从而达到通过API检索增强增加LLM回答的可靠性。

3 文章重点技术

3.1 Toolformer

给定语言模型 $M$ ，给定一系列可供调用的API接口 $c=(a_c, i_c)$ ，其中 $a_c$ 为API的名称， $i_c$ 为API的输入，API会返回结果 $r$ ，记 $a_c(i_c) \to r</API>)$ ，其中 $\to$ 表示特殊token，用于区分API的输入和输出。给定数据集 $\mathcal{C} = \{x^1, \dots, x^{|\mathcal{C}|}\}$ ，其中 $x^i$ 表示输入的文本。则Toolformer按照如下的步骤进行训练、推理：

Sampling API Calls：首先，对每个API接口，我们设计一个对应的prompt“ $P (x)$ "让模型自动改写原始输入为调用API的输入。如下图所示，对一个原始输入文本 $x$ ，对任意位置 $i\in\{1, \dots, n\}$ ，我们基于 $x_1, \dots, x_{i-1}, P(x)$ 预测下一个token是 $< A P I >$ 的概率 $p_i = p_M (<API>|P(x) , x_{1:i-1})$ ，如果条件概率值高于给定阈值 $\tau_s$ ，则认为模型应该在该位置调用API，如果存在高于 $k$ 个位置的概率值大于 $\tau_s$ ，则只保留top $k$ 个位置。最终得到需要调用API的位置集合 $I=\{i|p_i > \tau_s\}$ (不超过k个)。接下来，对每个 $i\in I$ ，我们基于 $x_1, \dots, x_{i-1}, <API>]$ 调用API接口得到接下来的预测结果。
Executing API Calls: 接下来执行上述语言模型自动生成的API调用文本 $c_i$ ，得到对应的结果 $r_i$ 。
Filtering API Calls：令 $L_i(z) = -\sum_{j=i}^n w_{j-i} \log p_M(x_j | z, x_{1:j-1})\\L_i^+ = L_i(e(c_i, r_i))\\L_i^- = \min (L_i(\epsilon), L_i(e(c_i, \epsilon)))$ ，其中 $\epsilon$ 表示空序列。上述 $L_i^+$ 实际表示给定 $x_1, \dots, x_{j-1}$ 和API返回结果 $r_i$ ，模型预测得到 $x_j$ 的加权概率的负数， $L_i^-$ 表示不进行API访问，或者只进行API访问但是不返回结果的情况下，模型得到 $x_j$ 的最小损失。如果 $L_i^+$ 比 $L_i^-$ 小很多，则可以认为访问API确实带来了收益。从而我们可以通过设置阈值 $\tau_f$ ，当 $L_i^- - L_i^+ \ge \tau_f$ 时，认为模型应该在 $i$ 位置访问API。
Model Finetuning：给定文本 $x$ 和位置 $i$ 处的API访问结果 $c_i, r_i)$ ，我们可重写输入文本为 $x_{1:i-1}, e(c_i, r_i), x_{i:n}$ ，最后基于数据集 $\mathcal{C}$ 生成SFT数据集 $\mathcal{C}^*$ 。在 $\mathcal{C}^*$ 上对模型进行微调，得到我们的toolformer工具。
Inference：推理阶段，我们进行正常的解码，直至模型生成 $\to$ 特殊token，此时我们将 $\to$ 之间的文本输入待调用的API，得到结果 $r$ ，然后我们将该结果拼接到模型的解码结果中，并插入 $< / A P I >$ 特殊token进行标记，然后继续解码直至结束。