LLMs之ICL:《Bayesian scaling laws for in-context learning》翻译与解读

LLMs之ICL:《Bayesian scaling laws for in-context learning》翻译与解读

导读:这篇论文的核心议题是理解和建模大型语言模型(LLM)的上下文学习(ICL)能力。文章从贝叶斯学习的角度出发,提出了一套新的贝叶斯缩放定律来解释和预测ICL的表现。

>> 背景痛点:上下文学习(ICL)是LLM的一种强大能力,无需额外训练即可执行复杂任务,但现有研究对ICL性能与上下文示例数量之间的关系(ICL曲线)缺乏清晰的解释和预测模型。

● 无法准确预测ICL曲线的形状,这阻碍了对多样本ICL策略的有效性评估、预测潜在的对齐失败(例如多样本越狱攻击),以及确定抑制LLM不良行为所需微调的程度。

● 现有研究对ICL的底层学习机制存在多种假设(贝叶斯学习、梯度下降等),缺乏统一的理论框架

● 后训练方法(如微调)在提高LLM安全性方面效果有限,ICL容易使被抑制的行为重新出现,这需要更深入的理解。

>> 具体的解决方案:论文提出了一套贝叶斯缩放定律来建模ICL曲线。该定律基于以下假设:ICL近似于贝叶斯学习器。通过贝叶斯定理,该定律将预测准确率与上下文示例数量联系起来,并包含可解释的参数,用于表示任务先验、学习效率和每个示例的概率。

>> 核心思路步骤

● 贝叶斯模型的建立:将ICL建模为一个贝叶斯模型,包含符号集、任务集、任务先验概率分布和似然函数。

● 贝叶斯定理的应用:利用贝叶斯定理更新任务后验概率,随着上下文示例数量的增加,后验概率收敛到最可能的任务。

● ICL曲线的推导:推导出一个函数形式的贝叶斯缩放定律,该定律将上下文示例数量与下一个示例的预期概率联系起来。

● 模型简化和效率系数的引入:为了降低参数数量并考虑示例长度和信息量的影响,对原始定律进行了简化,引入了ICL效率系数K。

● 参数绑定策略:为了减少无法观测的参数数量,提出了两种参数绑定策略:基于采样和基于评分,降低了模型复杂度。

>> 优势

● 更高的精度:实验结果表明,贝叶斯缩放定律在ICL曲线的插值和外推方面,都优于现有的基于幂律的缩放定律

● 可解释性:该定律的参数具有可解释性,可以对任务先验、学习效率和每个示例的概率进行分析,从而深入理解LLM的内部机制。

>> 结论和观点

贝叶斯缩放定律能够有效地描述和预测LLM的ICL行为,无论是在人工合成的简单数据集上,还是在真实世界的大型LLM和数据集上。

● 后训练方法(如监督微调和偏好学习强化学习)主要影响任务先验,而对模型对每个任务的知识影响较小,尤其是在模型规模较大的情况下。

● ICL能力随模型规模的增加而增强,学习效率也更高。

● 指令微调降低了有害行为的任务先验概率但未能阻止多样本越狱攻击,说明单纯的指令微调可能不足以提高LLM的安全性

● 虽然论文结果支持LLM进行贝叶斯推理的观点,但这并不构成严格的证明。LLM在真实世界中可能只近似地遵循贝叶斯行为

总而言之,这篇论文提供了一种新的视角来理解和建模LLM的上下文学习能力,并提出了一种具有更高精度和可解释性的贝叶斯缩放定律。该定律为研究和改进LLM的安全性以及对齐问题提供了有价值的工具。

目录

《Bayesian scaling laws for in-context learning》翻译与解读

Abstract

1、Introduction

7、Conclusion


《Bayesian scaling laws for in-context learning》翻译与解读

地址

论文地址:https://arxiv.org/abs/2410.16531

时间

20241021最新日期2024年11月2日

作者

斯坦福大学

Abstract

In-context learning (ICL) is a powerful technique for getting language models to perform complex tasks with no training updates. Prior work has established strong correlations between the number of in-context examples provided and the accuracy of the model's predictions. In this paper, we seek to explain this correlation by showing that ICL approximates a Bayesian learner. This perspective gives rise to a family of novel Bayesian scaling laws for ICL. In experiments with \mbox{GPT-2} models of different sizes, our scaling laws exceed or match existing scaling laws in accuracy while also offering interpretable terms for task priors, learning efficiency, and per-example probabilities. To illustrate the analytic power that such interpretable scaling laws provide, we report on controlled synthetic dataset experiments designed to inform real-world studies of safety alignment. In our experimental protocol, we use SFT to suppress an unwanted existing model capability and then use ICL to try to bring that capability back (many-shot jailbreaking). We then experiment on real-world instruction-tuned LLMs using capabilities benchmarks as well as a new many-shot jailbreaking dataset. In all cases, Bayesian scaling laws accurately predict the conditions under which ICL will cause the suppressed behavior to reemerge, which sheds light on the ineffectiveness of post-training at increasing LLM safety.

上下文学习(ICL)是一种强大的技术,可以让语言模型在无需更新训练的情况下执行复杂的任务。先前的工作已经证明,提供的上下文示例的数量与模型预测准确性的相关性很强。在这篇论文中,我们试图通过证明ICL近似于贝叶斯学习者来解释这种相关性。这种观点产生了一系列新颖的贝叶斯缩放定律,用于ICL。在使用不同大小的GPT-2模型的实验中,我们的缩放定律在精度上超过了或与现有的缩放定律相匹配,同时提供了可解释的任务先验、学习效率和单个示例概率的术语。为了展示这些可解释的缩放定律的分析能力,我们报告了旨在为现实世界中的安全对齐研究提供信息的受控合成数据实验。在我们的实验协议中,我们使用SFT来抑制不想要的现有模型能力,然后使用ICL尝试恢复该能力(多示例越狱)。然后,我们在使用能力基准以及一个新的多示例越狱数据集的现实世界指令调整LLM上进行实验。在所有情况下,贝叶斯缩放定律都能准确预测ICL何时会导致被抑制的行为重新出现,这有助于阐明在提高LLM安全性方面,后训练方法的无效性。

1、Introduction

Large language models (LLMs) can infer how to perform a task given only demonstrations and without additional training updates. This capability is known as in-context learning (ICL; Brown et al., 2020; Dong et al., 2022). Under ICL, task performance generally increases with the number of demonstrations, though the precise relationship between these two quantities is unclear. We call this relationship the ICL curve and seek to model it. Being able to predict the shape of the ICL curve would help us decide whether to do many-shot ICL Agarwal et al. (2024) after testing only few-shot performance, predict potential alignment failures under many-shot jailbreaking (Anil et al., 2024), and decide how much fine-tuning we need in order to suppress ICL of undesirable behaviours.

The learning algorithm underlying ICL has been characterised as Bayesian by Xie et al. (2022) and many later works (section 2). Drawing on this line of research, we use Bayes’ theorem to derive a family of Bayesian scaling laws for ICL (section 3) which model the ICL curve of an ideal Bayesian learner.

大型语言模型(LLMs)可以在仅提供示例的情况下,无需额外的训练更新来推断如何执行任务。这种能力被称为上下文无关学习(ICL;Brown et al., 2020; Dong et al., 2022)。在ICL的情况下,随着示例数量的增加,任务性能通常会提高,尽管这两个量之间的确切关系尚不清楚。我们称这种关系为ICL曲线,并试图对其进行建模。能够预测ICL曲线的形状将有助于我们决定是否在仅测试了少量示例性能后进行ICL,预测在进行大量ICL解锁时可能出现的对齐失败(Anil et al., 2024),并决定为了抑制不需要的行为的ICL需要进行多少微调。

ICL背后的学习算法已被Xie等人(2022)和其他许多后续工作(第2节)归类为贝叶斯算法。借鉴这一研究线,我们使用贝叶斯定理推导出一组贝叶斯缩放定律(第3节),用于建模理想贝叶斯学习者的ICL曲线。

To evaluate the performance of our Bayesian laws, we model the ICL curve for gpt2 models trained on simple synthetic data following Xie et al. (2022) as well as real-world LLMs tested on standard benchmarks (section 4.1). Compared to the power laws proposed by Anil et al. (2024), our Bayesian laws achieve lower error rates on both interpolation and extrapolation of the ICL curve, while also providing interpretable parameters for the prior over tasks, the efficiency of ICL, and per-example probabilities under different tasks. In our second set of experiments (section 4.2), we present a case study using our Bayesian laws to model how post-training affects ICL of favoured and disfavoured behaviours. On toy models, we find that smaller amounts of post-training strongly change the prior over tasks but not the model’s knowledge of each task, and the amount of post-training needed to suppress ICL of disfavoured tasks increases with scale.

Finally, we present experiments on real-world LLMs ranging from 1B to 405B parameters (section 5). Our laws accurately predict the ICL behaviour of several models on both capabilities and safety benchmarks and a new many-shot jailbreaking dataset we introduce. We then compare Llama 3.1 8B Base and Instruct using one of our Bayesian scaling laws (section 5.2) and find that alignment merely reduces the prior probability of harmful behaviour but not its learnability under ICL. Our work thus introduces a tool for interpreting the task knowledge of LLMs using purely behavioural observations, which we hope is valuable for improving LLM alignment.

为了评估我们提出的贝叶斯定律的性能,我们按照Xie等人(2022)的方法以及对标准基准测试(第4.1节)进行测试的实际LLM模型,对gpt2模型在简单合成数据上的ICL曲线进行了建模。与Anil等人(2024)提出的幂定律相比,我们的贝叶斯定律在ICL曲线的插值和外推方面具有更低的误差率,同时为任务的先验、ICL的效率以及不同任务下的每例概率提供了可解释的参数。在第二组实验(第4.2节)中,我们通过使用我们的贝叶斯定律来研究后训练如何影响偏好和不偏好的行为的ICL。在玩具模型上,我们发现较小量的后训练会强烈改变任务的先验,但不会改变模型对每个任务的知识,并且抑制不偏好任务的ICL所需的后训练量随规模的增加而增加。最后,我们在从1B到405B参数的真实世界LLM上进行了实验(第5节)。我们的定律准确地预测了几种模型在能力和安全性基准上的ICL行为,以及我们引入的一个新的多示例越狱数据集。然后,我们使用其中一个贝叶斯缩放定律(第5.2节)将Llama 3.1 8B Base和Instruct进行比较,发现对齐只会降低有害行为的先验概率,但在ICL下不会降低其可学习性。因此,我们的工作引入了一种仅基于行为观察来解释LLM任务知识的工具,我们希望这对改进LLM对齐是有价值的。

7、Conclusion

In this paper, we combined two questions to make progress at understanding ICL: (1) what scaling law best describes ICL, and (2) is ICL Bayesian? We showed that Bayesian assumptions naturally lead to a scaling law for ICL, and that Bayesian scaling laws are a great fit for both ICL behaviour by small LMs trained on controlled synthetic data, as well as LLMs trained on natural language. Using a Bayesian formulation gave us interpretable parameters for the prior, learning efficiency, and task-conditional probabilities, which can help us understand how model behaviour changes under alignment. We use these to show how ICL ability varies at different model scales, understand how finetuning harms knowledge of disfavoured distributions, and compare base and instruction-tuned LLMs. We are confident that further progress on understanding ICL is possible through the empirical science of scaling laws.

在这篇论文中,我们将两个问题结合起来,以更好地理解ICL:

(1)描述ICL的最佳标度定律是什么?(2)ICL是贝叶斯的吗?

我们证明了贝叶斯假设自然地导致了ICL的标度定律,并且贝叶斯标度定律非常适合由受控合成数据训练的小型LM以及由自然语言训练的LLM的ICL行为。采用贝叶斯形式使我们能够解释先验、学习效率和任务条件概率等可解释的参数,这有助于我们理解模型行为在对齐时的变化。我们使用这些参数来展示ICL能力在不同模型规模下的变化情况,了解微调如何损害对不受欢迎分布的了解,并比较基础LLM和基于指令的LLM。我们相信,通过标度定律的实证科学,可以进一步推进对ICL的理解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/62358.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于单片机和测频法的频率计设计及proteus仿真

摘要: 传感器广泛应用在自动化测量中,该文利用 51 单片机 2 个 16 位定时器和测量频率中的测频法设计了测量方波的频率计,并用LCD1602 液晶显示频率、 proteus 仿真,测试结果表明设计思路正确、误差小。 关键词: 单片机;测频法;频率计; proteus 1 概述 传感器能感受到…

软件漏洞印象

软件漏洞印象 软件安全性检测 软件安全静态分析:学术界一度十分热衷的偏理论性方法软件漏洞动态挖掘,工程界普遍采用动态漏洞挖掘方式,即Fuzz技术,也称为模糊测试 漏洞利用 vs. 漏洞修复 对于已发现的软件漏洞 黑客会基于Meta…

计算机网络 —— HTTPS 协议

前一篇文章:计算机网络 —— HTTP 协议(详解)-CSDN博客 目录 前言 一、HTTPS 协议简介 二、HTTPS 工作过程 1.对称加密 2.非对称加密 3.中间人攻击 4.引入证书 三、HTTPS 常见问题 1.中间人能否篡改证书? 2.中间人能否调…

定点数的乘除运算

原码一位乘法 乘积的符号由两个数的符号位异或而成。(不参与运算)被乘数和乘数均取绝对值参与运算,看作无符号数。乘数的最低位为Yn: 若Yn1,则部分积加上被乘数|x|,然后逻辑右移一位;若Yn0&…

如何设置ChromeDriver路径?

设置ChromeDriver路径是为了让Selenium能够正确地调用Chrome浏览器进行自动化操作。以下是几种设置ChromeDriver路径的方法: 1. 系统环境变量 将ChromeDriver的路径添加到系统的环境变量中,这样在任何地方都可以直接调用ChromeDriver。 Windows系统&a…

数据挖掘:一、Weka软件的基本操作

实验目的和要求 了解Weka软件的使用 实验环境 Windows11 Weka3.8.6 实验内容与过程 实验内容 1、了解Weka使用的一般步骤 2、利用Weka,对数据集进行关联规则挖掘及数据分类 3、记录操作步骤、使用的数据、最终的结果 实验过程 首先打开weka下载官网,选择合适

【从零开始的LeetCode-算法】383. 赎金信

给你两个字符串:ransomNote 和 magazine ,判断 ransomNote 能不能由 magazine 里面的字符构成。 如果可以,返回 true ;否则返回 false 。 magazine 中的每个字符只能在 ransomNote 中使用一次。 示例 1: 输入&#…

【第二十四周】从大语言模型到多模态大模型的发展

摘要 大语言模型(Large Language Model, LLM)是指一类基于深度学习的人工智能系统,它们被设计用来理解和生成自然语言。这些模型通常是在大量的文本数据上进行训练的,通过学习文本中的模式和结构,它们能够执行各种各样…

https ssl免费证书申请,自动续期,acme、certd

本文为个人笔记,方便自己需要时查阅,同时提供出来给大家作为免费ssl证书自动续签需求的一种参考 大部分免费证书的有效期仅有3个月,所以证书管理会涉及到自动续期管理的问题 一、acme证书 大佬们常用的证书证书申请管理方式,提…

uniapp的生命周期

在 UniApp 中,生命周期函数是指在组件(如页面、视图等)创建和销毁过程中会自动触发的一些函数。UniApp 提供了多种生命周期函数,帮助开发者在适当的时机进行相关的逻辑处理。 UniApp 的生命周期函数可以分为 页面生命周期 和 组件…

unity打包到安卓帧率降低

这个问题遇到过很多次了我的做法就是直接设置Application.targetFrameRate60 参考

【Vue】v-model、ref获取DOM

目录 v-moel v-model的原理 v-model用在组件标签上 方式 defineModel()简写 ref属性 获取原生DOM 获取组件实例 nextTick() v-moel v-model:双向数据绑定指令 数据变了,视图跟着变(数据驱动视图)视图变了,数…

Kubernetes 常用操作大全:全面掌握 K8s 基础与进阶命令

Kubernetes(简称 K8s)作为一种开源的容器编排工具,已经成为现代分布式系统中的标准。它的强大之处在于能够自动化应用程序的部署、扩展和管理。在使用 Kubernetes 的过程中,熟悉常用操作对于高效地管理集群资源至关重要。本文将详…

sqlmap --os-shell的原理(MySQL,MSSQL,PostgreSQL,Oracle,SQLite)

1. MySQL 条件 数据库用户需要具备高权限(如 FILE 权限)。数据库服务运行用户需要对目标目录有写权限。Web 服务器有可写目录,且支持执行上传的脚本(如 PHP、JSP 等)。 原理 利用 MySQL 的 SELECT ... INTO OUTFIL…

Springboot 2.x 升级到Springboot 2.7.x问题汇总

Springboot 2.x 升级到Springboot 2.7.x问题 Springboot 2.x 升级到Springboot 2.7.x问题汇总 不废话 上干货 改变 1.mysql依赖groupId和artifactId更改&#xff1b; <dependency><groupId>com.mysql</groupId><artifactId>mysql-connector-j</…

【计算机网络】实验13:运输层端口

实验13 运输层端口 一、实验目的 本次实验旨在验证TCP和IP运输层端口号的作用&#xff0c;深入理解它们在网络通信中的重要性。通过实验&#xff0c;我将探讨端口号如何帮助区分不同的应用程序和服务&#xff0c;使得在同一台主机上能够同时运行多个网络服务而不发生冲突。此…

【Redis】Redis基础——Redis的安装及启动

一、初识Redis 1. 认识NoSQL 数据结构&#xff1a;对于SQL来说&#xff0c;表是有结构的&#xff0c;如字段约束、字段存储大小等。 关联性&#xff1a;SQL 的关联性体现在两张表之间可以通过外键&#xff0c;将两张表的数据关联查询出完整的数据。 查询方式&#xff1a; 2.…

vuex 是什么?怎么使用?哪种功能场景使用它?

Vuex是Vue.js的状态管理库。它可以用来管理应用程序中的共享状态&#xff0c;并提供了一种集中式的方式来管理状态的变化。 使用Vuex&#xff0c;首先需要安装它&#xff1a; npm install vuex --save然后&#xff0c;在Vue应用程序的入口文件中&#xff0c;导入Vuex并在Vue实…

ElK 8 收集 MySQL 慢查询日志并通过 ElastAlert2 告警至飞书

文章目录 1. 说明2. 启个 mysql3. 设置慢查询4. filebeat 设置5. 触发慢查询6. MySQL 告警至飞书 1. 说明 elk 版本&#xff1a;8.15.0 2. 启个 mysql docker-compose.yml 中 mysql&#xff1a; mysql:# restart: alwaysimage: mysql:8.0.27# ports:# - "3306:3306&q…

PyTorch基本使用-张量的索引操作

在操作张量时&#xff0c;经常要去获取某些元素进行处理或者修改操作&#xff0c;在这里需要了解torch中的索引操作。 准备数据&#xff1a; data torch.randint(0,10,[4,5]) print(data--->,data)输出结果&#xff1a; data---> tensor([[3, 9, 4, 0, 5],[7, 5, 9, …