论文翻译 - Automatically Auditing Large Language Models via Discrete Optimization

Automatically Auditing Large Language Models via Discrete Optimization

Abstract
1 Introduction
2 Related Work
3 Formulating and Solving the Auditing Optimization Problem
- 3.1 Preliminaries
- 3.2 The auditing optimization problem

Abstract

为意外行为审计大型语言模型对于抢占灾难性部署至关重要，但仍然具有挑战性。在这项工作中，我们将审计视为优化问题，其中我们自动搜索与所需目标行为匹配的输入输出对。例如，我们可能目标是找到一个无毒的输入，该输入从“Barack Obama”开始，模型会将其映射到一个有毒的输出。这个优化问题很难解决，因为可行的点集是稀疏的，空间是离散的，而且我们审计的语言模型是非线性的和高维度的。为了应对这些挑战，我们引入了一种离散优化算法ARCA，该算法联合且有效地优化了输入和输出。我们的方法能自动地发现名人的贬义的完成（例如，“Barack Obama is a legalized unborn” $\to$ “child murderer”），生成能完成英语输出的法语输入，还有找到能生成一个特定名字的输入。我们的工作为在部署之前发现模型的故障模式提供了一种有前途的新工具。触发警告：本文包含在自然界中可能具有攻击性的模型行为。

1 Introduction

自回归的大型语言模型 (LLMs) 目前用于完成代码 [Chen et al., 2021, Li et al., 2022b]，总结书籍 [Stiennon et al., 2020]，并参与对话 [Thoppilan et al., 2022, Bai et al., 2022]，以命名他们许多功能中的一些。然而，LLMs 可能会意外产生不希望的行为；它们产生有毒输出 [Gehman et al., 2020, Perez et al., 2022]，加剧刻板印象 [Sheng et al., 2019, Abid et al., 2021]，并揭示私人信息 [Carlini et al., 2020]。未来的系统可能会灾难性地失败，例如通过删除所有计算机文件或清理银行帐户。

不幸的是，开发可靠的审计方法，即发现这类的错误实例的方法，有很大的挑战性。一些行为在训练分布（例如wiping bank 帐户）上很少见，但影响很大，并且由于比例或分布变化而在部署时可能会出现。突出的行为的实例也可能违反直觉，因此人类很难手工产生。审计方法必须能够轻松适应新的行为；由于我们想要测试许多可能不受欢迎的行为，因此需要特定行为的模板的模型、手动的搜索方法、或微调模型的方法可能会非常昂贵。

在这项工作中，我们通过指定和解决一个离散优化问题来审计模型。具体来说，我们搜索一个提示 $x$ 和输出 $o$ ，它们具有一个高审计目标值， $\phi(x,o)$ ，这里 $o$ 是 LLM 下关于 $x$ 的贪婪完成。我们设计了审计目标来捕捉一些目标行为；例如， $\phi$ 可能会衡量提示是法语但输出是英语（即令人惊讶的、无用的完成），或者是否提示是无毒的并且包含“Barack Obama”，而输出是有毒的（表 1）。这个公式解决了审计带来的许多挑战；解决优化问题可以揭示稀有行为和违反直觉的示例，而指定一个目标的低成本允许对新行为轻松的适应。

然而，解决这个优化问题在计算上具有挑战性：产生行为的提示集是稀疏的，空间是离散的，语言模型本身是非线性的和高维的。此外，查询语言模型一次是昂贵的，因此大量的顺序查询是令人望而却步的。即使是产生一个忠实于目标行为的审计目标也可能很困难。

表 1：我们框架的说明。给定一个要揭示的目标行为，我们在捕获这种行为的提示和输出上指定一个审计目标。然后我们使用我们的优化算法 ARCA 来最大化目标，以便在语言模型下，提示能完成输出（箭头）。我们为每个目标（在这种情况下，审计 762M 参数 GPT-2）提出了一些返回的提示（蓝色、第一行）和输出（红色、第二行），其中优化变量以粗体和斜体显示。

我们通过一种新的优化算法 ARCA 来应对这些挑战。ASCA 是一种坐标上升算法；它通过更新一个提示或输出中的标记来迭代地最大化目标，同时保持剩余的标记固定。为了使坐标上升在保持其精确度的同时高效，ARCA 使用了一种对目标函数的新的近似，它加和了两个表达式：可以通过 transformer 前向传递而精确计算的对数概率，和对其余项的平均一阶近似。在每一步，它使用这种近似对所有可能的标记进行排名，通过计算 k 个排名最高的标记的确切目标来细化排名，最后选择能产生最高目标函数值的标记。然后我们使用 ARCA 来优化审计目标，这些目标结合了 unigram 模型、困惑度项和固定的提示前缀，以生成忠于目标行为的示例。

使用762M参数的GPT-2 [Radford et al., 2019] 和6B参数的GPT-J [Wang and Komatsuzaki, 2021] 作为案例研究，我们发现通过离散优化的审计揭示了许多罕见、不受欢迎的行为的例子。例如，我们能够自动发现数百个提示，其中 GPT-2 生成的有关名人的有毒陈述（例如，Barack Obama is a legalized unborn $\to$ child murder），改变语言的完成（例如 faire affluent lieu versdu $\to$ is of the poor），以及事实上不准确的关联（例如 Florida governor $\to$ Rick Scott）或上下文中的冒犯（例如，billionaire Senator $\to$ Bernie Sanders）。

在我们的框架中，ARCA 还始终比我们测试的目前最先进的用于对抗性攻击[Guo et al., 2021] 和提示调优 [Shin et al., 2020] 的离散优化器产生更多的目标行为示例。我们将此成功归因于 ARCA 对审计目标的近似；近似保留了对数概率，使我们能够直接优化特定的输出，而不是间接通过提示，并且平均了多个一阶近似来更好地全局逼近目标。

最后，我们使用ARCA找到提示迁移的证据——返回的在GPT-2上产生故障的提示通常会在GPT-3上产生类似的故障。提示迁移表明，新的参数计数和训练集不会消除一些不希望看到的行为，并进一步证明了我们的审计框架如何产生令人惊讶的见解。

2 Related Work

Large language models. 最近的大量工作已经引入了大型、有能力的自回归语言模型在文本 [Radford et al., 2019, Brown et al., 2020, Wang and Komatsuzaki, 2021, Rae et al., 2021, Hoffmann et al., 2022] 和代码 [Chen et al., 2021, Nijkamp et al., 2022, Li et al., 2022b] 以及其他媒体方面。这些模型已应用于开放式生成任务比如对话 [Ram et al., 2018, Thoppilan et al., 2022]，长格式的摘要 [Stiennon et al., 2020, Rothe et al., 2020]，还有正式的数学 [Tang et al., 2021, Lewkowycz et al., 2022] 方面。

LLM Failure Modes. 大型语言模型在生成任务上有许多记录的故障模式，包括传播偏差和刻板印象 [Sheng et al., 2019, Nadeem et al., 2020, Groenwold et al., 2020, Blodgett et al., 2021, Abid et al., 2021, Hemmatian and Varshney, 2022]，还有隐私信息的泄露 [Carlini et al., 2020]。查看Bender et al. [2021], Bommasani et al. [2021], Weidinger et al. [2021] 关于更多故障的综述。

一些先前的工作搜索模型故障模式，通过测试手动编写的提示 [Ribeiro et al., 2020, Xu et al., 2021b]，或者从训练集中抓取的提示 [Gehman et al., 2020]，或从模板构建的提示 [Jia and Liang, 2017, Garg et al., 2019, Jones and Steinhardt, 2022]。一个和本文更相关的工作优化了一个目标来产生有趣的行为。Wallace et al. [2019] 通过优化一个提示来找到一个通用的触发器，来通过随机抽样产生许多有毒输出。与我们最接近的可比工作是 Perez et al. [2022]，它通过微调一个语言模型来产生能被分类器评估为有毒完成的提示。虽然这项工作受益于之前的语言模型来产生自然的提示，但我们提出的方法在计算上效率更高，并且可以通过更直接地追求优化信号来找到稀有的、有针对性的行为。

Controllable generation. 一项相关的工作是可控的生成，其中语言模型产生的输出被调整为具有一些属性的 [Dathathri et al., 2020, Krause et al., 2021, Liu et al., 2021, Yang and Klein, 2021, Li et al., 2022a]。在与我们的工作最接近的示例中，Kumar et al. [2021] 和 Qin et al. [2022] 将可控的生成转换为一个约束的优化问题，它们在给定一个固定提示的情况下搜索最高概率的输出，而受到一些约束（例如风格、特定子序列）。我们的工作不同于可控生成，因为我们要发现一个固定的模型的行为，而不是修改模型行为。

Gradient-based sampling. 一个补充的工作是利用梯度从目标中更有效地采样 [Grathwohl et al., 2021, Sun et al., 2022, Zhang et al., 2022]，它也面临类似的挑战：变量是离散的，高概率区域可能是稀疏的。最大化而不是采样在我们的设置中尤其重要，因为最大概率可能很小，但通常通过温度缩放或贪婪解码在推理时会变大。

Adversarial attacks. 我们的工作涉及对抗性攻击，攻击者动一个输入以更改分类器的预测 [Szegedy et al., 2014, Goodfellow et al., 2015]。对文本的对抗性攻击通常涉及添加拼写错误、交换同义词和其他语义保留的转换 [Ebrahimi et al., 2018, Alzantot et al., 2018, Li et al., 2020, Guo et al., 2021]。一些工作还研究了不受限制的对抗性示例设置，旨在找到使模型错误 [Brown et al., 2018, Ziegler et al., 2022] 的明确示例。我们的设置与标准的对抗性攻击设置不同，因为我们通过一个更大的可能输入和输出空间来搜索，并且可接受的“不正确”输出集要小得多。