跨模型知识融合:大语言模型的知识融合

大语言模型(LLMs)在多个领域的应用日益广泛,但确保它们的行为与人类价值观和意图一致却充满挑战。传统对齐方法,例如基于人类反馈的强化学习(RLHF),虽取得一定进展,仍面临诸多难题:训练奖励模型需准确反映人类偏好,这本身难度很大;actor-critic架构的设计和优化过程复杂;RLHF通常需要直接访问LLM的参数,这在API基础模型中难以实现。获取高质量的、无偏见的反馈数据也是一大挑战,因为数据集可能受到个别标注者观点的影响,导致偏差。这些挑战共同构成了LLMs对齐工作的难点。本文介绍了一种新的对齐范式——Aligner,它通过学习对齐和未对齐答案之间的修正残差来绕过整个RLHF过程,提供了一种参数高效、资源节约的对齐解决方案。

 Aligner
Aligner模块的架构以及其在语义空间中的行为

图1展示了Aligner模块的架构以及它在语义空间中的行为。左侧展示了一个校正工作流程,其中Aligner作为一个即插即用模型,堆叠在上游的大型语言模型(LLM)之上,无论该上游模型是否已经对齐。Aligner的作用是将上游模型生成的初始答案重新分配,转化为更加有用和无害的答案,从而使组合后的LLM响应与人类意图保持一致。

右侧的图示说明了从查询到对齐答案的直接映射学习是具有挑战性的。然而,基于上游模型输出的答案进行校正,则是一个更可行的学习任务。这意味着,Aligner通过专注于校正已有答案,而不是试图直接生成完美对齐的答案,简化了学习过程。这种方法利用了seq2seq模型的优势,通过学习隐含的残差来实现更好的对齐,而不是从头开始学习复杂的映射。

Aligner的架构和功能类似于神经网络中的残差块,它采用“复制和校正”的方法,将改进叠加在原始答案上,而不改变其基本结构。这种设计不仅保留了初始响应,同时增强了它,使其更好地符合期望的结果。通过这种方式,Aligner能够在保持原有答案框架的基础上,对其进行必要的调整,以提高答案的质量和安全性。

Aligner模型的核心是一种自回归的序列到序列(seq2seq)学习方法,它通过监督学习的方式在查询-答案-修正(Q-A-C)数据集上进行训练。这种方法与传统的基于人类反馈的强化学习(RLHF)相比,具有显著的优势。在RLHF中,通常需要多个辅助模型,包括行为者(actor)、评论家(critic)、奖励(reward)和参考(reference)模型,这些模型的协调和训练过程相当复杂,需要大量的计算资源。

相比之下Aligner模型的设计更为简洁高效。它不需要依赖额外的辅助模型,因此减少了计算负担,使得对齐过程更加高效。Aligner模型的工作原理相对直观:它接收来自用户的查询以及由上游大型语言模型(LLM)生成的初始答案。基于这些输入,Aligner模型会生成一个修正后的答案,这个答案旨在更好地符合人类的价值观和意图。

Aligner模型的训练过程也相对简单。它通过学习如何从初始答案中识别并改进不符合人类价值观的部分,从而生成更加对齐的答案。这种方法的优势在于,它专注于修正已有答案,而不是从头开始生成答案,这大大降低了模型的复杂性和所需的计算资源。

Aligner模型的自回归特性意味着它在生成修正答案时,会考虑到整个查询和答案的上下文,从而生成更加连贯和相关的答案。这种方法不仅提高了答案的质量,还确保了答案与用户查询的紧密相关性。

在对Aligner模型与RLHF(基于人类反馈的强化学习)和DPO(直接偏好优化)等传统对齐方法进行比较时,可以发现Aligner在训练资源需求和模型可解释性方面具有明显的优势:

  1. 从训练资源的角度来看,Aligner模型由于其简化的架构,不需要像RLHF和DPO那样维护多个复杂的模型组件。RLHF方法涉及到训练奖励模型、actor、critic等组件,这不仅增加了模型训练的复杂性,也显著提高了所需的计算资源。而DPO作为一种强化学习方法,同样需要大量的计算资源来优化策略。相比之下,Aligner-7B作为一个自回归的seq2seq模型,即使在性能相似的情况下,也能以更少的资源消耗完成训练。
  2. 随着上游模型规模的增加,RLHF和DPO等方法所需的训练资源会急剧上升。这是因为这些方法通常需要与模型参数直接交互,参数量的增加自然导致计算负担的加重。然而,Aligner模型的训练资源需求并不随上游模型规模的变化而变化。这是因为Aligner作为一个附加模块,它的训练和运行不依赖于上游模型的具体参数,而是通过学习如何改进已有答案来实现对齐,因此它能够以相对恒定的资源消耗应对不同规模的上游模型。
  3. Aligner模型的可解释性也是其一大优势。在RLHF方法中,奖励信号往往是从人类反馈中学习得到的,这个过程可能不够透明,使得模型的决策过程难以解释。而Aligner模型作为一个seq2seq模型,其行为更易于理解和解释,因为它直接在文本空间内操作,通过修改和改进已有答案来生成对齐的答案,这个过程更加直观。

Aligner的训练策略采用了一种创新的方法,称为残差修正,这种方法的核心在于利用原始答案与修正后答案之间的语义差异。这个策略首先通过部分训练数据来初步训练一个Aligner模型,这个过程被称为“预热”阶段。预热的目的是让模型学习到一个基础的恒等映射,即模型在这个阶段学习如何保持输入和输出的一致性,这为后续的训练打下了基础。

在预热阶段之后,Aligner模型会使用完整的查询-答案-修正(Q-A-C)数据集来进行进一步的训练。此时,模型不再只是简单地学习恒等映射,而是开始学习如何根据已有的答案生成改进后的修正答案。这种方法允许模型专注于答案的改进部分,而不是从头开始生成整个答案,这提高了学习效率并减少了所需的模型容量。

残差修正策略的一个关键优势在于它允许模型在保持原有答案结构的同时,对答案进行精细化的调整。这意味着模型可以更加精确地对齐到人类价值观和意图,同时避免了对原始答案进行大规模的改动,这在很多情况下是有益的,因为它可以保留原始答案中仍然有效和准确的部分。

通过这种方式,Aligner模型能够更加高效地学习如何生成与人类价值观更加一致的答案。因为它专注于修正而不是重建,这使得模型可以更快地收敛,并且需要的训练数据量也相对较少。这种方法在训练大型语言模型时尤其有用,因为这些模型通常需要大量的数据和计算资源。

Aligner作为残差学习增强器在LLMs的架构和能力方面的作用

残差修正训练策略为Aligner模型提供了一种有效的学习机制,使其能够以一种计算效率高且可解释的方式来改进和对齐大型语言模型的答案。通过预热阶段的恒等映射学习和完整数据集上的残差修正,Aligner能够生成更加精确和有用的回答,同时保持了训练过程的简洁性和高效性。

通过Aligner实现的弱到强的泛化

弱到强的泛化这一概念在机器学习领域中指的是,使用一个能力较弱的模型来指导或监督一个更强模型的训练,以此提升后者的性能。本文中的方法基于Aligner模型来实现弱到强的泛化。

这个方法涉及使用一个较小的Aligner模型,即所谓的“弱”模型,来生成对齐标签。这些标签随后被用作训练数据,用于微调一个更大规模或更强大的上游模型,也就是“强”模型。这个过程的核心优势在于,即使是较小的模型也能够提供有价值的反馈,帮助提升大型模型的性能。

在实践中,弱Aligner模型首先接收到来自上游模型的输出,然后基于这些输出生成修正后的标签。这些修正后的标签捕捉到了原始输出与期望输出之间的差异,从而为强模型提供了改进的方向。通过这种方式,即使是较小的模型也能够对大型模型进行有效的指导。

这种方法的一个关键优势是它的可扩展性。随着模型规模的增长,直接训练和优化大型模型变得越来越困难,需要大量的计算资源和数据。而通过弱到强泛化,我们可以利用小型模型的灵活性和效率,来引导和优化大型模型的行为,使其更加符合人类的价值观和意图。

这种方法还有助于解决大型模型训练中的一些挑战,比如数据的标注成本和质量控制问题。通过使用小型模型来生成训练标签,可以减少对大量高质量标注数据的依赖,从而降低训练成本并提高训练过程的可操作性。

通过Aligner实现的弱到强泛化提供了一种创新的训练策略,它允许小型模型通过生成对齐标签来增强大型模型的性能。这种方法不仅提高了大型模型的对齐度,还通过减少对资源的依赖,提高了训练过程的效率和可扩展性。

使用Aligner进行弱到强泛化的结果,包括在不同模型上的性能提升
实验

研究者选择了两个不同的数据集来进行评估:BeaverTails和HarmfulQA。这两个数据集被用来检验Aligner在不同情境下的表现,以及它如何提升模型输出的有用性和无害性。

实验设置中,研究者特别关注了两类模型:基于API的模型和开源模型。对于API基础模型,他们选择了GPT-4和Claude 2,这两种模型都通过API提供服务,并且具备强大的语言处理能力。这些模型的表现将作为评估Aligner模块效果的一个重要参考。

同时,研究者也包括了一系列开源模型,包括不同规模的Llama2模型(7B, 13B, 70B)-Chat版本、Vicuna系列(7B, 13B, 33B)以及Alpaca7B和Beaver-7B。这些模型因其开放的架构和可访问性,为研究者提供了丰富的实验选项。通过将Aligner模块应用于这些模型,研究者可以观察到Aligner在不同类型的语言模型上的表现,以及它如何帮助这些模型更好地符合人类的价值观和意图。

在实验中,Aligner模块被集成到了上述模型中,以评估其对模型输出的影响。研究者特别关注了Aligner如何提升模型答案的有用性和无害性。有用性指的是模型输出对用户问题的正面帮助程度,而无害性则涉及模型输出是否避免了可能对用户或社会造成伤害的内容。

实验结果显示,Aligner模型作为一种有效的对齐工具,它能够跨不同类型和规模的语言模型工作,提升模型输出的质量和安全性。这些发现证明了Aligner模型在实际应用中的潜力,尤其是在需要提升语言模型对齐度的场景中。

Aligner模型在不同设置下的性能表现

表3显示Aligner在所有设置中都取得了显著的效果。研究者通过将各种模型与Aligner集成,并与原始模型进行比较,来量化有用性(helpfulness)和无害性(harmlessness)的百分比提升。表格中的背景颜色代表了目标语言模型的类型:绿色代表基于API的模型,橙色代表未进行安全对齐的开源模型,蓝色代表进行了安全对齐的开源模型。表格中使用了特定的图标来指示模型参数是否可访问,以及模型是否进行了安全对齐。

表3的评估结果是基于Aligner模型与不同上游模型的集成来进行的。这些上游模型包括了不同规模和类型的语言模型,如GPT-4、Claude 2、Llama2-7B-Chat、Vicuna-7B等。通过将Aligner模型集成到这些上游模型中,研究者能够观察到在有用性和无害性方面的显著提升。例如,Aligner-7B在提升GPT-4的有用性方面提高了17.5%,在无害性方面提高了26.9%。

表3还展示了Aligner模型在不同类型的模型上的应用效果,这包括了API基础模型和开源模型。对于API基础模型,即使模型参数不可访问,Aligner作为一个即插即用的模块,也能够显著提升模型的性能。而对于开源模型,无论是已经进行了安全对齐的模型,还是未进行安全对齐的模型,Aligner都能够提供性能上的增强。

在训练和评估集中有用性和无害性得分的分布

研究者还进行了消融实验。消融研究显示,与自我改进/自我批评方法相比,Aligner在有用性和无害性方面均表现优越。此外,与RLHF/DPO/SFT等基线方法相比,Aligner在减少计算资源的同时,提供了可比或更好的改进。

Aligner与CAI、Self-Refine和Self-Critique等方法的有效性评估

消融研究中使用了BeaverTails和HarmfulQA两个数据集来进行评估。在这些实验中,研究者将CAI提示仅在大型语言模型(LLMs)的推理时使用,以鼓励模型自我修正答案。这种不经过预先训练而直接使用CAI提示的方法,代表了一种独特的自我完善形式。而Self-Critique方法则是让模型自我批评,以发现并改进答案中的缺陷。

实验结果显示,使用CAI和Self-Critique方法时,GPT-4模型在有用性和无害性上的提升分别为+21.2%/+11.0%和+31.7%/+19.9%。然而,当使用Aligner-13B模型时,这些指标的提升更为显著,达到了+33.9%/+25.1%和+25.1%/+20.1%。这表明Aligner模型在提升模型输出的质量和安全性方面,具有明显的优势。

Aligner作为一种新兴的大型语言模型对齐范式,展示了在资源效率、训练简便性和模型泛化能力方面的重要优势。随着进一步的研究和开发,Aligner有望在确保AI系统与人类价值观和意图一致方面发挥关键作用。

论文地址:https://arxiv.org/abs/2402.02416

项目地址:https://aligner2024.github.io

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/21253.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

wandb安装与使用 —— 用于跟踪、可视化和协作机器学习实验的工具

文章目录 一、wandb简介二、wandb注册与登陆(网页) —— 若登录,则支持在线功能三、wandb安装与登陆(命令行) —— 若不登录,则只保留离线功能四、函数详解4.1、wandb.init() —— 初始化一个新的 wandb 实…

上位机图像处理和嵌入式模块部署(f407 mcu中fatfs中间件使用)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 前面我们已经实现了spi norflash的驱动,理论上这已经可以实现数据的持久化保存了。为什么还需要一个文件系统呢?主要原因还…

在 Win系统安装 Ubuntu20.04子系统 WSL2 (默认是C盘,第7步开始迁移到D盘,也可以不迁移)

1、简介 WSL在Windows 10上原生运行Linux二进制可执行文件,不用单独安装虚拟机。 WSL2是WSL的第二个版本,提供了与WSL相比的显著性能改进和完全的系统呼叫兼容性。通过运行Linux内核在一个轻量级虚拟机(VM)中实现。 2、安装 电…

ThingsBoard MQTT 连接认证过程 源码分析+图例

整个连接过程如图所示: 高清图片链接 1、环境准备 thingsboard3.5.1 源码启动。(不懂怎么启动的,大家可以看我的博文ThingsBoard3.5.1源码启动)MQTTX 客户端(用来连接 thingsboard MQTT)默认配置。queue.…

7-15 位模式(dump_bits)---PTA实验C++

一、题目描述 为方便调试位运算相关程序,先做个展现位模式的小工具。 建议参照以下接口实现: // 利用函数重载特性:string dump_bits(char x);string dump_bits(short x);string dump_bits(int x);string dump_bits(long long x);// 或用函…

JVM类加载过程

在Java虚拟机规范中,把描述类的数据从class文件加载到内存,并对数据进行校验、转换解析和初始化,最终形成可以被虚拟机直接使用的java.lang.Class对象,这个过程被称作类加载过程。一个类在整个虚拟机周期内会经历如下图的阶段&…

DIYP对接骆驼后台IPTV管理,退出菜单中显示用户名已经网络信息,MAC,剩余天数,套餐名称等

演示:https://url03.ctfile.com/f/1779803-1042599473-4dc000?p8976 (访问密码: 8976) 后台加上EPG,增加一些播放源的动态端口替换。 前台app上,退出菜单中显示用户名已经网络信息,MAC,剩余天数,套餐名称…

Python知识点17---包

提前说一点:如果你是专注于Python开发,那么本系列知识点只是带你入个门再详细的开发点就要去看其他资料了,而如果你和作者一样只是操作其他技术的Python API那就足够了。 Python的包,你可以把它看成是一个大的模块,它…

JAVA基础|多线程

什么是线程? 线程(Thread)是一个程序内部的一条执行流程。 多线程是什么? 多线程是指从软硬件上实现的多条执行流程的技术(多条线程由CPU负责调度执行) 一. 如何在程序中创建出多条线程? Ja…

Windows10系统中安装与配置PyTorch(无GPU版本)

文章目录 1. 什么是PyTorch2. PyTorch的安装与配置(无GPU)2.1 创建环境2.2 安装pytorch库(无GPU)2.3 验证安装结果 1. 什么是PyTorch PyTorch 是一种用于构建深度学习模型且功能完备的开源框架,通常用于处理图像识别和…

OpenCV 的几种查找图像中轮廓边缘的方法

原始图片: 1、Sobel() Sobel 算子结合了高斯平滑和微分,用于计算图像的梯度,从而突出显示边缘。 import cv2# 读取图像 image cv2.imread(image.png, cv2.IMREAD_GRAYSCALE)# 使用 Sobel 算子查找水平和垂直边缘 sobel_x cv2.Sobel(image…

建筑企业有闲置资质怎么办?

如果建筑企业拥有闲置资质,可以考虑以下几种方式来充分利用这些资质: 1. 租赁或转让资质: 将闲置的建筑资质租赁给其他企业或个人使用,或者通过转让的方式将资质出售给有需要的企业或个人。 2. 提供咨询服务: 利用建…

OneForall工具的下载安装和使用(Windows和Linux)

目录 OneForall的介绍 OneForall的下载 OneForall的安装 安装要求 安装步骤(git 版) 安装(kali) OneForall的使用命令 在Windows 在Linux(kali) OneForall的结果说明 免责声明 本文所提供的文字和…

车辆前向碰撞预警系统性能要求和测试规程

前言 本文整理《GB/T 33577-2017 智能运输系统-车辆前向碰撞预警系统性能要求和测试规程》国标文件关键信息,FCW系统性能和测试右给深层次的认识。 术语和定义 车辆前向碰撞预警系统 forward vehicle collision warning system自车 subject vehicle(SV)目标车辆 target ve…

【Linux】查找和压缩

一、文件查找 1、命令查找 which 2、文件查找、依赖数据库 locate 3、文件查找 find 语法:find [path] [options] [expression] [action] ①按文件名 -name按名 -iname可不区分大小写 ②按文件大小 5M:5M以上文件 5M:5M文件 -…

高中数学:解三角形相关公式总结及用法总结

一、正弦定理 二、余弦定理 三、三角形面积公式 由正弦定理,可以推出三角形的面积公式: S*ab*sinC S*ac*sinB S*bc*sinA 四、使用方法总结 五、练习 例题1 解析 对条件等式进行变形,结合余弦定理,求出∠A的度数,从而…

Nginx01-HTTP简介与Nginx简介(安装、命令介绍、目录介绍、配置文件介绍)

目录 HTTP简介HTTP原理查看访问网站的详细流程curl -vwget --debug 查看网站访问量HTTP协议版本HTTP协议交互HTTP 请求请求报文起始行请求头 HTTP响应响应报文起始行响应头 Nginx常见的Web服务常见网站服务 安装NginxNginx目录结构Nginx启动管理Nginx常用命令 Nginx配置文件主配…

国内外主流大模型语言技术大比拼

国内外主流大模型语言技术对比 2024 自2017年起,美国深度布局人工智能,全面融入经济、文化与社会。至2023年,中国凭借自研技术平台崭露头角,ChatGPT及其技术成国家战略焦点,引领未来科技浪潮。中美竞逐,人工…

香橙派 AI pro:AI 加速初体验

香橙派 AI pro:AI 加速初体验 在AI领域,不断涌现的硬件产品为开发者提供了前所未有的便利和可能性。今天,我要介绍的这款产品——香橙派 AIpro,就是其中的佼佼者。在昇腾 AI 芯片的加持下,这款开发板有着出色的算力。…

961题库 北航计算机 操作系统 附答案 选择题形式

有题目和答案,没有解析,不懂的题问大模型即可,无偿分享。 第1组 习题 计算机系统的组成包括( ) A、程序和数据 B、处理器和内存 C、计算机硬件和计算机软件 D、处理器、存储器和外围设备 财务软件是一种&#xff…