跨模型知识融合:大模型的知识融合

 大模型(LLMs)在多个领域的应用日益广泛,但确保它们的行为与人类价值观和意图一致却充满挑战。传统对齐方法,例如基于人类反馈的强化学习(RLHF),虽取得一定进展,仍面临诸多难题:训练奖励模型需准确反映人类偏好,这本身难度很大;actor-critic架构的设计和优化过程复杂;RLHF通常需要直接访问LLM的参数,这在API基础模型中难以实现。获取高质量的、无偏见的反馈数据也是一大挑战,因为数据集可能受到个别标注者观点的影响,导致偏差。这些挑战共同构成了LLMs对齐工作的难点。本文介绍了一种新的对齐范式——Aligner,它通过学习对齐和未对齐答案之间的修正残差来绕过整个RLHF过程,提供了一种参数高效、资源节约的对齐解决方案。

 Aligner
Aligner模块的架构以及其在语义空间中的行为

图1展示了Aligner模块的架构以及它在语义空间中的行为。左侧展示了一个校正工作流程,其中Aligner作为一个即插即用模型,堆叠在上游的大型语言模型(LLM)之上,无论该上游模型是否已经对齐。Aligner的作用是将上游模型生成的初始答案重新分配,转化为更加有用和无害的答案,从而使组合后的LLM响应与人类意图保持一致。

右侧的图示说明了从查询到对齐答案的直接映射学习是具有挑战性的。然而,基于上游模型输出的答案进行校正,则是一个更可行的学习任务。这意味着,Aligner通过专注于校正已有答案,而不是试图直接生成完美对齐的答案,简化了学习过程。这种方法利用了seq2seq模型的优势,通过学习隐含的残差来实现更好的对齐,而不是从头开始学习复杂的映射。

Aligner的架构和功能类似于神经网络中的残差块,它采用“复制和校正”的方法,将改进叠加在原始答案上,而不改变其基本结构。这种设计不仅保留了初始响应,同时增强了它,使其更好地符合期望的结果。通过这种方式,Aligner能够在保持原有答案框架的基础上,对其进行必要的调整,以提高答案的质量和安全性。

Aligner模型的核心是一种自回归的序列到序列(seq2seq)学习方法,它通过监督学习的方式在查询-答案-修正(Q-A-C)数据集上进行训练。这种方法与传统的基于人类反馈的强化学习(RLHF)相比,具有显著的优势。在RLHF中,通常需要多个辅助模型,包括行为者(actor)、评论家(critic)、奖励(reward)和参考(reference)模型,这些模型的协调和训练过程相当复杂,需要大量的计算资源。

相比之下Aligner模型的设计更为简洁高效。它不需要依赖额外的辅助模型,因此减少了计算负担,使得对齐过程更加高效。Aligner模型的工作原理相对直观:它接收来自用户的查询以及由上游大型语言模型(LLM)生成的初始答案。基于这些输入,Aligner模型会生成一个修正后的答案,这个答案旨在更好地符合人类的价值观和意图。

Aligner模型的训练过程也相对简单。它通过学习如何从初始答案中识别并改进不符合人类价值观的部分,从而生成更加对齐的答案。这种方法的优势在于,它专注于修正已有答案,而不是从头开始生成答案,这大大降低了模型的复杂性和所需的计算资源。

Aligner模型的自回归特性意味着它在生成修正答案时,会考虑到整个查询和答案的上下文,从而生成更加连贯和相关的答案。这种方法不仅提高了答案的质量,还确保了答案与用户查询的紧密相关性。

在对Aligner模型与RLHF(基于人类反馈的强化学习)和DPO(直接偏好优化)等传统对齐方法进行比较时,可以发现Aligner在训练资源需求和模型可解释性方面具有明显的优势:

  1. 从训练资源的角度来看,Aligner模型由于其简化的架构,不需要像RLHF和DPO那样维护多个复杂的模型组件。RLHF方法涉及到训练奖励模型、actor、critic等组件,这不仅增加了模型训练的复杂性,也显著提高了所需的计算资源。而DPO作为一种强化学习方法,同样需要大量的计算资源来优化策略。相比之下,Aligner-7B作为一个自回归的seq2seq模型,即使在性能相似的情况下,也能以更少的资源消耗完成训练。
  2. 随着上游模型规模的增加,RLHF和DPO等方法所需的训练资源会急剧上升。这是因为这些方法通常需要与模型参数直接交互,参数量的增加自然导致计算负担的加重。然而,Aligner模型的训练资源需求并不随上游模型规模的变化而变化。这是因为Aligner作为一个附加模块,它的训练和运行不依赖于上游模型的具体参数,而是通过学习如何改进已有答案来实现对齐,因此它能够以相对恒定的资源消耗应对不同规模的上游模型。
  3. Aligner模型的可解释性也是其一大优势。在RLHF方法中,奖励信号往往是从人类反馈中学习得到的,这个过程可能不够透明,使得模型的决策过程难以解释。而Aligner模型作为一个seq2seq模型,其行为更易于理解和解释,因为它直接在文本空间内操作,通过修改和改进已有答案来生成对齐的答案,这个过程更加直观。

Aligner的训练策略采用了一种创新的方法,称为残差修正,这种方法的核心在于利用原始答案与修正后答案之间的语义差异。这个策略首先通过部分训练数据来初步训练一个Aligner模型,这个过程被称为“预热”阶段。预热的目的是让模型学习到一个基础的恒等映射,即模型在这个阶段学习如何保持输入和输出的一致性,这为后续的训练打下了基础。

在预热阶段之后,Aligner模型会使用完整的查询-答案-修正(Q-A-C)数据集来进行进一步的训练。此时,模型不再只是简单地学习恒等映射,而是开始学习如何根据已有的答案生成改进后的修正答案。这种方法允许模型专注于答案的改进部分,而不是从头开始生成整个答案,这提高了学习效率并减少了所需的模型容量。

残差修正策略的一个关键优势在于它允许模型在保持原有答案结构的同时,对答案进行精细化的调整。这意味着模型可以更加精确地对齐到人类价值观和意图,同时避免了对原始答案进行大规模的改动,这在很多情况下是有益的,因为它可以保留原始答案中仍然有效和准确的部分。

通过这种方式,Aligner模型能够更加高效地学习如何生成与人类价值观更加一致的答案。因为它专注于修正而不是重建,这使得模型可以更快地收敛,并且需要的训练数据量也相对较少。这种方法在训练大型语言模型时尤其有用,因为这些模型通常需要大量的数据和计算资源。

Aligner作为残差学习增强器在LLMs的架构和能力方面的作用

残差修正训练策略为Aligner模型提供了一种有效的学习机制,使其能够以一种计算效率高且可解释的方式来改进和对齐大型语言模型的答案。通过预热阶段的恒等映射学习和完整数据集上的残差修正,Aligner能够生成更加精确和有用的回答,同时保持了训练过程的简洁性和高效性。

通过Aligner实现的弱到强的泛化

弱到强的泛化这一概念在机器学习领域中指的是,使用一个能力较弱的模型来指导或监督一个更强模型的训练,以此提升后者的性能。本文中的方法基于Aligner模型来实现弱到强的泛化。

这个方法涉及使用一个较小的Aligner模型,即所谓的“弱”模型,来生成对齐标签。这些标签随后被用作训练数据,用于微调一个更大规模或更强大的上游模型,也就是“强”模型。这个过程的核心优势在于,即使是较小的模型也能够提供有价值的反馈,帮助提升大型模型的性能。

在实践中,弱Aligner模型首先接收到来自上游模型的输出,然后基于这些输出生成修正后的标签。这些修正后的标签捕捉到了原始输出与期望输出之间的差异,从而为强模型提供了改进的方向。通过这种方式,即使是较小的模型也能够对大型模型进行有效的指导。

这种方法的一个关键优势是它的可扩展性。随着模型规模的增长,直接训练和优化大型模型变得越来越困难,需要大量的计算资源和数据。而通过弱到强泛化,我们可以利用小型模型的灵活性和效率,来引导和优化大型模型的行为,使其更加符合人类的价值观和意图。

这种方法还有助于解决大型模型训练中的一些挑战,比如数据的标注成本和质量控制问题。通过使用小型模型来生成训练标签,可以减少对大量高质量标注数据的依赖,从而降低训练成本并提高训练过程的可操作性。

通过Aligner实现的弱到强泛化提供了一种创新的训练策略,它允许小型模型通过生成对齐标签来增强大型模型的性能。这种方法不仅提高了大型模型的对齐度,还通过减少对资源的依赖,提高了训练过程的效率和可扩展性。

使用Aligner进行弱到强泛化的结果,包括在不同模型上的性能提升
实验

研究者选择了两个不同的数据集来进行评估:BeaverTails和HarmfulQA。这两个数据集被用来检验Aligner在不同情境下的表现,以及它如何提升模型输出的有用性和无害性。

实验设置中,研究者特别关注了两类模型:基于API的模型和开源模型。对于API基础模型,他们选择了GPT-4和Claude 2,这两种模型都通过API提供服务,并且具备强大的语言处理能力。这些模型的表现将作为评估Aligner模块效果的一个重要参考。

同时,研究者也包括了一系列开源模型,包括不同规模的Llama2模型(7B, 13B, 70B)-Chat版本、Vicuna系列(7B, 13B, 33B)以及Alpaca7B和Beaver-7B。这些模型因其开放的架构和可访问性,为研究者提供了丰富的实验选项。通过将Aligner模块应用于这些模型,研究者可以观察到Aligner在不同类型的语言模型上的表现,以及它如何帮助这些模型更好地符合人类的价值观和意图。

在实验中,Aligner模块被集成到了上述模型中,以评估其对模型输出的影响。研究者特别关注了Aligner如何提升模型答案的有用性和无害性。有用性指的是模型输出对用户问题的正面帮助程度,而无害性则涉及模型输出是否避免了可能对用户或社会造成伤害的内容。

实验结果显示,Aligner模型作为一种有效的对齐工具,它能够跨不同类型和规模的语言模型工作,提升模型输出的质量和安全性。这些发现证明了Aligner模型在实际应用中的潜力,尤其是在需要提升语言模型对齐度的场景中。

Aligner模型在不同设置下的性能表现

表3显示Aligner在所有设置中都取得了显著的效果。研究者通过将各种模型与Aligner集成,并与原始模型进行比较,来量化有用性(helpfulness)和无害性(harmlessness)的百分比提升。表格中的背景颜色代表了目标语言模型的类型:绿色代表基于API的模型,橙色代表未进行安全对齐的开源模型,蓝色代表进行了安全对齐的开源模型。表格中使用了特定的图标来指示模型参数是否可访问,以及模型是否进行了安全对齐。

表3的评估结果是基于Aligner模型与不同上游模型的集成来进行的。这些上游模型包括了不同规模和类型的语言模型,如GPT-4、Claude 2、Llama2-7B-Chat、Vicuna-7B等。通过将Aligner模型集成到这些上游模型中,研究者能够观察到在有用性和无害性方面的显著提升。例如,Aligner-7B在提升GPT-4的有用性方面提高了17.5%,在无害性方面提高了26.9%。

表3还展示了Aligner模型在不同类型的模型上的应用效果,这包括了API基础模型和开源模型。对于API基础模型,即使模型参数不可访问,Aligner作为一个即插即用的模块,也能够显著提升模型的性能。而对于开源模型,无论是已经进行了安全对齐的模型,还是未进行安全对齐的模型,Aligner都能够提供性能上的增强。

在训练和评估集中有用性和无害性得分的分布

研究者还进行了消融实验。消融研究显示,与自我改进/自我批评方法相比,Aligner在有用性和无害性方面均表现优越。此外,与RLHF/DPO/SFT等基线方法相比,Aligner在减少计算资源的同时,提供了可比或更好的改进。

Aligner与CAI、Self-Refine和Self-Critique等方法的有效性评估

消融研究中使用了BeaverTails和HarmfulQA两个数据集来进行评估。在这些实验中,研究者将CAI提示仅在大型语言模型(LLMs)的推理时使用,以鼓励模型自我修正答案。这种不经过预先训练而直接使用CAI提示的方法,代表了一种独特的自我完善形式。而Self-Critique方法则是让模型自我批评,以发现并改进答案中的缺陷。

实验结果显示,使用CAI和Self-Critique方法时,GPT-4模型在有用性和无害性上的提升分别为+21.2%/+11.0%和+31.7%/+19.9%。然而,当使用Aligner-13B模型时,这些指标的提升更为显著,达到了+33.9%/+25.1%和+25.1%/+20.1%。这表明Aligner模型在提升模型输出的质量和安全性方面,具有明显的优势。

Aligner作为一种新兴的大型语言模型对齐范式,展示了在资源效率、训练简便性和模型泛化能力方面的重要优势。随着进一步的研究和开发,Aligner有望在确保AI系统与人类价值观和意图一致方面发挥关键作用。

论文地址:https://arxiv.org/abs/2402.02416

项目地址:https://aligner2024.github.io

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/864576.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode Top 100 题目概览及部分题目解答【两数之和,接雨水,最长回文子串,三数之和】

本人详解 作者:王文峰,参加过 CSDN 2020年度博客之星,《Java王大师王天师》 公众号:JAVA开发王大师,专注于天道酬勤的 Java 开发问题中国国学、传统文化和代码爱好者的程序人生,期待你的关注和支持!本人外号:神秘小峯 山峯 转载说明:务必注明来源(注明:作者:王文峰…

django开源电子文档管理系统_Django简介、ORM、核心模块

Django简介 Django是一种开源的大而且全的Web应用框架,是由python语言来编写的。他采用了MVC模式,Django最初是被开发来用于管理劳伦斯出版集团下的一些以新闻为主内容的网站。一款CMS(内容管理系统)软件。并于 2005 年 7 月在 BSD 许可证下发布。这套框…

Pytest+Yaml+Request+Allure+PyMsql+Jenkins+GitLab框架源代码之(二)config配置

config公共配置包 config.yml 公共配置文件,主要配置路径及日志 base:base_info_url: https://XXXX.combase_php_url: http://XXXX.combase_weixin_url: https://XXXX.qq.combase_fenmi_url: http://XXXXX.com # base_czt_url: http://XXXXXbase_czt_url: hhttps:…

自然语言处理:第四十章 如何与大模型交流-Prompt工程

文章链接:Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 主页: VILA-Lab/ATLAS: A principled instruction benchmark on formulating effective queries and prompts for large language models (LLMs). Our paper: https://arxiv.org/abs…

Redis 7.x 系列【13】数据类型之地理位置(Geospatial)

有道无术,术尚可求,有术无道,止于术。 本系列Redis 版本 7.2.5 源码地址:https://gitee.com/pearl-organization/study-redis-demo 文章目录 1. 概述2. 常用命令2.1 GEOADD2.2 GEODIST2.3 GEORADIUS2.4 GEOPOS2.5 GEORADIUSBYMEM…

半导体工艺的完美搭档 —— PEEK晶片夹

PEEK(聚醚醚酮 Polyetheretherketone)是一种高性能的工程塑料,以其耐高温、耐磨性、尺寸稳定性、低释气性和低吸湿性等特性,在电子半导体、光伏及液晶光电工业中得到广泛应用。 PEEK晶片夹作为其中的一种应用,具有以下…

液压件工厂的MES解决方案:智能生产,高效未来

一、引言 虽然我国液压件行业发展迅速,但是大多数液压件生产企业规模小、自主创新能力不足,大部分液压产品处于价值链中低端。且由于技术、工艺、设备及管理等多方面的限制,高端液压件产品研发生产水平不足,无法形成有效的供给&a…

如何在工作中应用六西格玛绿带培训所学的知识和技能?

近年来,六西格玛作为一种被广泛认可的质量管理工具,为企业提供了一种系统的、数据驱动的方法来优化流程、提高产品质量并减少成本。然而,仅仅接受培训是不够的,如何在工作中有效应用六西格玛绿带培训所学的知识和技能,…

录屏软件哪个好用?分享5款(2024最新)

随着网络时代的发展,电脑的使用频率也越来越高,还有近些年出现的网课、直播等,这让电脑的录屏功能显得更重要。随之而来的录屏软件也越来越多样化,选择一款好的软件是录屏至关重要的环节。 在数字浪潮汹涌的时代,录屏…

前端利用vue如何实现导入和导出功能.md

1. 前端利用vue如何实现导入和到处功能 1.1. 导入功能&#xff08;以导入Excel文件为例&#xff09; 1.1.1. 实现步骤: 1.1.1.1. 安装依赖: 首先&#xff0c;你需要安装处理Excel文件的库&#xff0c;如xlsx。1.1.1.2. 创建上传组件: 使用Element UI的<el-upload>组件或其…

绘唐3一键追爆款文刻创作聚星文社

聚星文社是一个中国的文学社交平台&#xff0c;提供了一个让作家和读者相互交流和分享作品的平台。 在聚星文社&#xff0c;作家可以在平台上发布自己的作品&#xff0c;获得读者的阅读和评论&#xff0c;同时也可以与其他作家进行交流与学习。 点击下载即可 读者可以在平台上…

一、安全完善度等级SIL(Safety Integrity Level)介绍

目录 一、背景 二、定义 2.1 相关概念介绍如下&#xff1a; 2.2 扩展 2.3 注意事项 一、背景 在轨道交通行业中&#xff0c;安全完善度等级&#xff08;SIL&#xff0c;Safety Integrity Level&#xff09;是一个至关重要的概念&#xff0c;它用于评估安全相关系统&#x…

Linux基础IO操作详解

C文件IO相关接口 fopen函数 pathname: 要打开的文件名字符串mode: 访问文件的模式 模式描述含义“r”读文件不存在失败返回null“r”读写文件不存在打开失败返回null&#xff0c;文件存在则从头开始覆盖现有的数据&#xff08;不会清空数据&#xff09;“w”写文件不存在创建…

马斯克公布xAI Grok-2大语言模型将于8月推出;GPT-5仍需时日

&#x1f989; AI新闻 &#x1f680; 马斯克公布xAI Grok-2大语言模型将于8月推出 摘要&#xff1a;7月1日&#xff0c;马斯克在X平台宣布&#xff0c;其人工智能初创公司xAI的新大语言模型Grok-2将于8月推出。此前&#xff0c;xAI已发布了Grok-1.5和Grok-1.5 Vision模型。马…

运营商如何通过PCDN技术提高用户服务?

着互联网的快速发展&#xff0c;用户对网络速度和质量的要求越来越高。为了满足这些需求&#xff0c;内容分发网络(CDN)成为了关键的基础设施。而在CDN技术中&#xff0c;PCDN(PersonalCDN)作为一种新兴的技术&#xff0c;为运营商和用户提供了新的解决方案。本文将重点介绍PCD…

Drools开源业务规则引擎(一)- 安装与介绍

文章目录 [toc] Drools开源业务规则引擎&#xff08;一&#xff09;- 安装与介绍0.何为规则引擎1.Drools介绍1.1.依赖模块1.2.规则引擎 2.Drools安装2.1.依赖导入2.2.规则的输入和输出类型输入类型输出类型 2.3.创建规则文件2.4.构建可执行规则库2.5.执行结果&#xff1a; 3.Dr…

自动驾驶---Motion Planning之多段五次多项式

1 前言 在之前的博客系列文章中和读者朋友们聊过Apollo的 Motion Planning方案: 《自动驾驶---Motion Planning之LaneChange》 《自动驾驶---Motion Planning之Path Boundary》 《自动驾驶---Motion Planning之Speed Boundary》 《自动驾驶---Motion Planning之轨迹Path优化》…

8种数据迁移工具

前言 最近有些小伙伴问我&#xff0c;ETL数据迁移工具该用哪些。 ETL(是Extract-Transform-Load的缩写&#xff0c;即数据抽取、转换、装载的过程)&#xff0c;对于企业应用来说&#xff0c;我们经常会遇到各种数据的处理、转换、迁移的场景。 今天特地给大家汇总了一些目前…

【云原生】服务网格(Istio)如何简化微服务通信

&#x1f407;明明跟你说过&#xff1a;个人主页 &#x1f3c5;个人专栏&#xff1a;《未来已来&#xff1a;云原生之旅》&#x1f3c5; &#x1f516;行路有良友&#xff0c;便是天堂&#x1f516; 目录 一、引言 1、微服务架构的兴起 2、Istio&#xff1a;服务网格的佼…