论文翻译 - Automatically Auditing Large Language Models via Discrete Optimization

Automatically Auditing Large Language Models via Discrete Optimization

  • Abstract
  • 1 Introduction
  • 2 Related Work
  • 3 Formulating and Solving the Auditing Optimization Problem
    • 3.1 Preliminaries
    • 3.2 The auditing optimization problem

Abstract

为意外行为审计大型语言模型对于抢占灾难性部署至关重要,但仍然具有挑战性。在这项工作中,我们将审计视为优化问题,其中我们自动搜索与所需目标行为匹配的输入输出对。例如,我们可能目标是找到一个无毒的输入,该输入从“Barack Obama”开始,模型会将其映射到一个有毒的输出。这个优化问题很难解决,因为可行的点集是稀疏的,空间是离散的,而且我们审计的语言模型是非线性的和高维度的。为了应对这些挑战,我们引入了一种离散优化算法ARCA,该算法联合且有效地优化了输入和输出。我们的方法能自动地发现名人的贬义的完成(例如,“Barack Obama is a legalized unborn” → \to “child murderer”),生成能完成英语输出的法语输入,还有找到能生成一个特定名字的输入。我们的工作为在部署之前发现模型的故障模式提供了一种有前途的新工具。触发警告:本文包含在自然界中可能具有攻击性的模型行为。

1 Introduction

自回归的大型语言模型 (LLMs) 目前用于完成代码 [Chen et al., 2021, Li et al., 2022b],总结书籍 [Stiennon et al., 2020],并参与对话 [Thoppilan et al., 2022, Bai et al., 2022],以命名他们许多功能中的一些。然而,LLMs 可能会意外产生不希望的行为;它们产生有毒输出 [Gehman et al., 2020, Perez et al., 2022],加剧刻板印象 [Sheng et al., 2019, Abid et al., 2021],并揭示私人信息 [Carlini et al., 2020]。未来的系统可能会灾难性地失败,例如通过删除所有计算机文件或清理银行帐户。

不幸的是,开发可靠的审计方法,即发现这类的错误实例的方法,有很大的挑战性。一些行为在训练分布(例如wiping bank 帐户)上很少见,但影响很大,并且由于比例或分布变化而在部署时可能会出现。突出的行为的实例也可能违反直觉,因此人类很难手工产生。审计方法必须能够轻松适应新的行为;由于我们想要测试许多可能不受欢迎的行为,因此需要特定行为的模板的模型、手动的搜索方法、或微调模型的方法可能会非常昂贵。

在这项工作中,我们通过指定和解决一个离散优化问题来审计模型。具体来说,我们搜索一个提示 x x x 和输出 o o o ,它们具有一个高审计目标值, ϕ ( x , o ) \phi(x,o) ϕ(x,o),这里 o o o 是 LLM 下关于 x x x 的贪婪完成。我们设计了审计目标来捕捉一些目标行为;例如, ϕ \phi ϕ 可能会衡量提示是法语但输出是英语(即令人惊讶的、无用的完成),或者是否提示是无毒的并且包含“Barack Obama”,而输出是有毒的(表 1)。这个公式解决了审计带来的许多挑战;解决优化问题可以揭示稀有行为和违反直觉的示例,而指定一个目标的低成本允许对新行为轻松的适应。

然而,解决这个优化问题在计算上具有挑战性:产生行为的提示集是稀疏的,空间是离散的,语言模型本身是非线性的和高维的。此外,查询语言模型一次是昂贵的,因此大量的顺序查询是令人望而却步的。即使是产生一个忠实于目标行为的审计目标也可能很困难。

表 1:我们框架的说明。给定一个要揭示的目标行为,我们在捕获这种行为的提示和输出上指定一个审计目标。然后我们使用我们的优化算法 ARCA 来最大化目标,以便在语言模型下,提示能完成输出(箭头)。我们为每个目标(在这种情况下,审计 762M 参数 GPT-2)提出了一些返回的提示(蓝色、第一行)和输出(红色、第二行),其中优化变量以粗体和斜体显示。

我们通过一种新的优化算法 ARCA 来应对这些挑战。ASCA 是一种坐标上升算法;它通过更新一个提示或输出中的标记来迭代地最大化目标,同时保持剩余的标记固定。为了使坐标上升在保持其精确度的同时高效,ARCA 使用了一种对目标函数的新的近似,它加和了两个表达式:可以通过 transformer 前向传递而精确计算的对数概率,和对其余项的平均一阶近似。在每一步,它使用这种近似对所有可能的标记进行排名,通过计算 k 个排名最高的标记的确切目标来细化排名,最后选择能产生最高目标函数值的标记。然后我们使用 ARCA 来优化审计目标,这些目标结合了 unigram 模型、困惑度项和固定的提示前缀,以生成忠于目标行为的示例。

使用762M参数的GPT-2 [Radford et al., 2019] 和6B参数的GPT-J [Wang and Komatsuzaki, 2021] 作为案例研究,我们发现通过离散优化的审计揭示了许多罕见、不受欢迎的行为的例子。例如,我们能够自动发现数百个提示,其中 GPT-2 生成的有关名人的有毒陈述(例如,Barack Obama is a legalized unborn → \to child murder),改变语言的完成(例如 faire affluent lieu versdu → \to is of the poor),以及事实上不准确的关联(例如 Florida governor → \to Rick Scott)或上下文中的冒犯(例如,billionaire Senator → \to Bernie Sanders)。

在我们的框架中,ARCA 还始终比我们测试的目前最先进的用于对抗性攻击[Guo et al., 2021] 和提示调优 [Shin et al., 2020] 的离散优化器产生更多的目标行为示例。我们将此成功归因于 ARCA 对审计目标的近似;近似保留了对数概率,使我们能够直接优化特定的输出,而不是间接通过提示,并且平均了多个一阶近似来更好地全局逼近目标。

最后,我们使用ARCA找到提示迁移的证据——返回的在GPT-2上产生故障的提示通常会在GPT-3上产生类似的故障。提示迁移表明,新的参数计数和训练集不会消除一些不希望看到的行为,并进一步证明了我们的审计框架如何产生令人惊讶的见解。

2 Related Work

Large language models. 最近的大量工作已经引入了大型、有能力的自回归语言模型在文本 [Radford et al., 2019, Brown et al., 2020, Wang and Komatsuzaki, 2021, Rae et al., 2021, Hoffmann et al., 2022] 和 代码 [Chen et al., 2021, Nijkamp et al., 2022, Li et al., 2022b] 以及其他媒体方面。这些模型已应用于开放式生成任务比如对话 [Ram et al., 2018, Thoppilan et al., 2022],长格式的摘要 [Stiennon et al., 2020, Rothe et al., 2020],还有正式的数学 [Tang et al., 2021, Lewkowycz et al., 2022] 方面。

LLM Failure Modes. 大型语言模型在生成任务上有许多记录的故障模式,包括传播偏差和刻板印象 [Sheng et al., 2019, Nadeem et al., 2020, Groenwold et al., 2020, Blodgett et al., 2021, Abid et al., 2021, Hemmatian and Varshney, 2022],还有隐私信息的泄露 [Carlini et al., 2020]。查看Bender et al. [2021], Bommasani et al. [2021], Weidinger et al. [2021] 关于更多故障的综述。

一些先前的工作搜索模型故障模式,通过测试手动编写的提示 [Ribeiro et al., 2020, Xu et al., 2021b],或者从训练集中抓取的提示 [Gehman et al., 2020],或从模板构建的提示 [Jia and Liang, 2017, Garg et al., 2019, Jones and Steinhardt, 2022]。一个和本文更相关的工作优化了一个目标来产生有趣的行为。Wallace et al. [2019] 通过优化一个提示来找到一个通用的触发器,来通过随机抽样产生许多有毒输出。与我们最接近的可比工作是 Perez et al. [2022],它通过微调一个语言模型来产生能被分类器评估为有毒完成的提示。虽然这项工作受益于之前的语言模型来产生自然的提示,但我们提出的方法在计算上效率更高,并且可以通过更直接地追求优化信号来找到稀有的、有针对性的行为。

Controllable generation. 一项相关的工作是可控的生成,其中语言模型产生的输出被调整为具有一些属性的 [Dathathri et al., 2020, Krause et al., 2021, Liu et al., 2021, Yang and Klein, 2021, Li et al., 2022a]。在与我们的工作最接近的示例中,Kumar et al. [2021] 和 Qin et al. [2022] 将可控的生成转换为一个约束的优化问题,它们在给定一个固定提示的情况下搜索最高概率的输出,而受到一些约束(例如风格、特定子序列)。我们的工作不同于可控生成,因为我们要发现一个固定的模型的行为,而不是修改模型行为。

Gradient-based sampling. 一个补充的工作是利用梯度从目标中更有效地采样 [Grathwohl et al., 2021, Sun et al., 2022, Zhang et al., 2022],它也面临类似的挑战:变量是离散的,高概率区域可能是稀疏的。最大化而不是采样在我们的设置中尤其重要,因为最大概率可能很小,但通常通过温度缩放或贪婪解码在推理时会变大。

Adversarial attacks. 我们的工作涉及对抗性攻击,攻击者动一个输入以更改分类器的预测 [Szegedy et al., 2014, Goodfellow et al., 2015]。对文本的对抗性攻击通常涉及添加拼写错误、交换同义词和其他语义保留的转换 [Ebrahimi et al., 2018, Alzantot et al., 2018, Li et al., 2020, Guo et al., 2021]。一些工作还研究了不受限制的对抗性示例设置,旨在找到使模型错误 [Brown et al., 2018, Ziegler et al., 2022] 的明确示例。我们的设置与标准的对抗性攻击设置不同,因为我们通过一个更大的可能输入和输出空间来搜索,并且可接受的“不正确”输出集要小得多。

3 Formulating and Solving the Auditing Optimization Problem

3.1 Preliminaries

3.2 The auditing optimization problem

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/762004.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

20232831 2023-2024-2 《网络攻防实践》第3次作业

目录 20232831 2023-2024-2 《网络攻防实践》第3次作业1.实验内容2.实验过程(1)动手实践tcpdump(2)动手实践Wireshark(3)取证分析实践,解码网络扫描器(listen.cap) 3.学习…

【小程序开发】家庭 API 集合(总)

ty.home.getCurrentHomeInfo 获取当前家庭信息 需引入HomeKit,且在>3.0.1版本才可使用 请求参数 Object object 属性类型默认值必填说明completefunction否接口调用结束的回调函数(调用成功、失败都会执行)successfunction否接口调用成…

react拖拽react-beautiful-dnd,一维数组,二维数组

写在前边,二维数组可以拖拽,但是不可以编辑拖拽,如果想要实现编辑拖拽,还是需要转换成一维数组。原因是因为插件的官方规定,在拖拽过程中不可以编辑Droppable层的Props。 相关地址: 中文文档地址 react-be…

VUE中添加视频播放功能

转载https://www.cnblogs.com/gg-qq/p/10782848.html 常见错误 vue-video-player下载后‘vue-video-player/src/custom-theme.css‘找不到 解决方法 卸载原来的video-play版本 降低原来的版本 方法一 npm install vue-video-player5.0.1 --save 方法二 或者是在pack.json中直…

Lucene的lukeall工具的下载和使用图解

Lucene的lukeall工具的下载和使用图解-CSDN博客 Releases DmitryKey/luke (github.com) 需要github的用户名和密码,没有是下载不成功的.

OpenGL学习笔记【4】——创建窗口

一、前三章节的前情回顾 章节一:上下文(Context) OpenGL学习笔记【1】——简介-CSDN博客 章节一讲述了OpenGL在渲染的时候需要一个Context来记录了OpenGL渲染需要的所有信息和状态,可以把上下文理解成一个大的结构体,它里面记录了当前绘制使…

FPGA_AD9361

1.集成12位DAC和ADC的一款器件,2个输入模拟通道和2个输出模拟通道 2.• TX频段:47 MHz至6.0 GHz • RX频段:70 MHz至6.0 GHz 3.SPI配置成LVDS或CMOS接口,也可以还可以选择FDD(频分双工——全双工,操作时需…

JVM垃圾回收之内存分配,死亡对象判断方法

Java 堆是垃圾收集器管理的主要区域,因此也被称作 GC 堆。 堆划分为新生代 老生代 永久代。 下图所示的 Eden 区、两个 Survivor 区 S0 和 S1 都属于新生代,中间一层属于老年代,最下面一层属于永久代。 内存分配原则 对象优先在Eden区域分…

基于PID控制器的四旋翼无人机控制系统的simulink建模与仿真,并输出虚拟现实动画

目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 4.1四旋翼无人机的动力学模型 4.2 PID控制器设计 4.3 姿态控制实现 4.4 VR虚拟现实动画展示 5.完整工程文件 1.课题概述 基于PID控制器的四旋翼无人机控制系统的simulink建模与仿真,并输出vr虚拟现实…

docker基础(五)之docker run(第二弹)

文章目录 概述docker run语法命令选项用法速查OPTIONS说明:-h "mars"-e username"ritchie"--env-file[]拓展:为什么 env.list ,拓展名是.list那命名为env.txt 是否能使用--env-file识别呢 --cpuset"0-2" or --…

Chronicles 是什么数据库

可以理解的是 Chronicles 是 EPIC 公司根据 IRIS 进行魔改后的一个 DBMS。 简单的来说 Chronicles 就是一个数据库管理系统,但这个数据库管理系统不是我们常说的关系数据库的管理系统。 数据库结构 只要对数据库有所了解的都知道数据库通常就是 2 个部分&#xf…

10W字解析 SpringBoot技术内幕文档,实战+原理齐飞,spring事务实现原理面试

第3章,Spring Boot构造流程源码分析,Spring Boot的启动非常简单,只需执行一个简单的main方法即可,但在整个main方法中,Spring Boot都做了些什么呢?本章会为大家详细讲解Spring Boot启动过程中所涉及的源代码…

会声会影2023新版本特点以及会声会影2023序列号注册机keygen下载

会声会影简介 虽然现在已经是2024年了,但是大家对会声会影2024的热爱一直不减,很多人后台问我,有没有会声会影2023序列号和注册机,这不,今天这篇文章它来了。 会声会影2023新版特性 1.全新的进入/中场/退出标题动态功…

【Godot 4.2】常见几何图形、网格、刻度线点求取函数及原理总结

概述 本篇为ShapePoints静态函数库的补充和辅助文档。ShapePoints函数库是一个用于生成常见几何图形顶点数据(PackedVector2Array)的静态函数库。生成的数据可用于_draw和Line2D、Polygon2D等进行绘制和显示。因为不断地持续扩展,ShapePoint…

基于Springboot的在线投稿系统+数据库+免费远程调试

项目介绍: Javaee项目,springboot项目。采用M(model)V(view)C(controller)三层体系结构,通过Spring SpringBoot Mybatis VueMavenLayui来实现。MySQL数据库作为系统数据储存平台&a…

计算机组成原理 双端口存储器原理实验

一、实验目的 1、了解双端口静态随机存储器IDT7132的工作特性及使用方法 2、了解半导体存储器怎样存储和读出数据 3、了解双端口存储器怎样并行读写,产生冲突的情况如何 二、实验任务 (1)按图7所示,将有关控制信号和和二进制开关对应接好,…

C# 读取txt文本所有行

引用:System.IO; Path.Combine(); //将字符串组合成一个路径 Path.GetFullPath(); //返回指定路径的绝对路径 File.ReadAllLines(); //读取文本框返回一个数组 File.ReadAllText(); //读取文本框返回一个字符串 File.ReadAllBytes(); //读取文本框返回字节 …

工控机丨丨工业电脑丨工控计算机丨工业一体机丨什么是工业一体机

工业一体机俗称工控机,是一种专门为工业应用而设计的计算机设备,主要应用于工厂、车间、仓库等工业场所。此外工控机还叫做工控计算机,通常采用工业级主板、工业级CPU、工业级硬盘、工业级内存和工业级电源等硬件组件,以确保其在高…

解决angualr13 form表单设置disabled不起作用问题

我的博客原文:解决angualr13 form表单设置disabled不起作用问题 问题 我们在angular项目中form中disabled 属性和 formControlName 结合使用时,会发现disabled 属性不会起作用,代码如下 ​ 效果却是 ​ 这是为什么呢? 原…

LeetCode每日一题——数组串联

数组串联OJ链接:1929. 数组串联 - 力扣(LeetCode) 题目: 思路: 题目说 ans 由两个 nums 数组 串联 形成。那么我们就只需要历遍两次nums数组,将它放在我们的ans数组里。 注意: 题目函数对于我…