Prometheus 2: 一个专门评估其他语言模型的开源语言模型(续集)

普罗米修斯的续集来了。

专有的语言模型如 GPT-4 经常被用来评估来自各种语言模型的回应品质。然而,透明度、可控制性和可负担性等考虑强烈促使开发专门用于评估的开源语言模型。另一方面,现有的开源评估语言模型表现出关键的缺点:1) 它们给出的分数与人类给出的分数存在显著差异,以及 2) 它们缺乏灵活性来执行直接评估和成对排序,这是最普遍的两种评估形式。此外,它们没有根据自定评估标准进行评估的能力,而是专注于一般属性,如有帮助性和无害性。为了解决这些问题,本文介绍了 PROMETHEUS 2,一个比其前身更强大的评估语言模型,它能密切模仿人类和 GPT-4 的判断。此外,它能够处理直接评估和成对排序两种格式,并配合使用者定义的评估标准。在四个直接评估基准和四个成对排序基准上,PROMETHEUS 2 在所有测试的开源评估语言模型中,与人类和专有语言模型评判者取得最高的相关性和一致性。本文的模型、程序代码和数据都是公开可用的。

repo: https://github.com/prometheus-eval/prometheus-eval

abs: https://arxiv.org/abs/2405.01535

背景
评估语言模型(LM)产生的输出品质正逐渐变得困难,因为输出涵盖了极其多样化的文本和复杂任务。为了解决这个问题,基于语言模型的评估已成为评估 LM 生成文本的一种可扩展和便宜的范式(Li et al., 2024; Gao et al., 2024)。在这个范式中,LM 要么被提示输出一个品质的标量指标(称为直接评估),要么确定哪一个输出是优选的(称为成对排序)。先前采用专有 LM 作为评估器的工作不仅表现出与人类评估的高度相关性,而且还提高了速度和成本效益。

然而,依赖专有 LM 进行评估会带来重大挑战。关于其训练数据的透明度缺乏损害了公平性和合规性,使它们在评估管道中的使用存在问题。此外,关于可控制性和可负担性的顾虑也依然存在。为了解决这些问题,最近的工作专注于开发开放存取、透明和可控制的评估 LM。然而,这些模型通常产生的评分决策与人类判断或专有 LM 做出的判断相关性不够高,无法有效模拟它们。此外,开放评估 LM 缺乏灵活性,因为它们通常只训练用于执行直接评估或成对排序,并且基于一般公众偏好(如有帮助性和无害性)进行评估,限制了它们处理多样化真实场景的能力。

为了缩小与专有语言模型的差距,本文的作者们研究了统一两种基于模型的评估范式 - 直接评估和成对排序,以训练一个稳健的统一评估语言模型。他们提出了一个方法,通过合并两个分别在直接评估和成对排序格式上训练的评估语言模型的权重来实现。他们的关键实证观察是,权重合并可以产生一个评估语言模型,不仅可以在两种格式下工作,而且优于联合训练或只在单一格式上训练的评估语言模型。 

为了展示他们的方法,作者们开发了 PREFERENCE COLLECTION,这是一个新的细粒度成对排序反馈数据集,它建立在直接评估反馈数据集 FEEDBACK COLLECTION 之上。他们选择 Mistral-7B 和 Mixtral-8x7B 作为基础模型,并合并分别在 FEEDBACK COLLECTION 和 PREFERENCE COLLECTION 上训练的评估语言模型的权重,以获得他们的最终模型 PROMETHEUS 2 (7B & 8x7B)。

在四个直接评估基准和四个成对排序基准上,与现有的开源评估语言模型相比,PROMETHEUS 2 模型展示了与人类评估者和专有语言模型评判者最高的相关性和一致性。在直接评估基准上,PROMETHEUS 2 模型的 Pearson 相关系数在所有数据集上都超过其他基准0.2 个单位。同样地,在成对排序基准上,PROMETHEUS 2 模型在所有测试的开源评估语言模型中,展现了与人类评估者最高的一致性,并将与 GPT-4 的性能差距缩小了一半。

本文的贡献可以总结如下:

引入了 PROMETHEUS 2 (7B & 8x7B),这是最先进的开源评估语言模型,在直接评估和成对排序上都取得与人类评估者和专有语言模型评判者高度相关的分数。
引入了一个成对排序反馈数据集,称为 PREFERENCE COLLECTION,其中包括超过1000个评估标准,超越了有帮助性和无害性。  
显示了合并在直接评估和成对排序反馈数据集上训练的评估语言模型的权重,可以得到一个在两种方案中都表现出色的统一评估语言模型。

相关工作
基于语言模型的评估
为了评估语言模型的生成能力,先前的工作如 GEM 基准采用 Rouge、BLEU  和 BERTScore 作为它们的度量,这些度量衡量参考答案和回应之间的词汇或语义相似性。然而,这些传统的度量容易产生假阴性,因为它们没有足够的表达能力来识别品质好但与参考答案不同的回应。

最近,采用语言模型作为评判已经受到关注,成为模仿人类评估的深度和粒度的有前景的范式。为了减少对专有语言模型的过度依赖,后续工作建议训练专门用于评估的语言模型。然而,开放评估语言模型在不同评估方案中缺乏灵活性,与专有语言模型相比表现出较弱的评估性能。本文旨在通过引入 PROMETHEUS 2 来弥合这一差距。

权重合并  
先前的工作已经证明,权重合并可以提高跨各个领域的性能,包括语言建模、指令调整和与用户偏好对齐。在本文中,作者们特别关注提高开放评估语言模型的评估能力。通过合并在不同评估格式上训练的模型,即直接评估和成对排序,作者们旨在获得一个评估语言模型,不仅可以在两种格式下工作,而且表现出与专有语言模型一样好的评估性能。

方法  
作者们提出了一个新的方法来训练统一评估语言模型,基于合并分别针对直接评估和成对排序训练的模型的权重。他们首先介绍直接评估和成对排序的背景知识,然后是训练数据的构建过程(第3.3节)。最后,他们介绍了训练最先进的评估语言模型 PROMETHEUS 2 的方法(第3.4节)。

作者们介绍了 PREFERENCE COLLECTION,这是第一个包含超过1000个实例级评估标准的成对排序反馈数据集,超越了基本品质,如有帮助性和无害性。PREFERENCE COLLECTION 是通过对 FEEDBACK COLLECTION 应用两个修改而构建的。首先,由于 FEEDBACK COLLECTION 为每个指令包含五个回应,每个回应对应1到5之间的评分决策,作者们将五个回应中的两个配对,得到每个指令的十个组合。使用每个回应的现有评分决策,他们确定哪个回应更好,并为该对分配一个新的评分决策(即"回应A更好"或"回应B更好")。其次,为了为每对回应生成新的口头反馈,作者们提示 GPT-4 识别两个回应的共同点和差异点。作者们还进行了质量验证过程,以确保 PREFERENCE COLLECTION 的质量。

作者们采用 Mistral-7B 和 Mixtral-8x7B 作为基础模型,并合并分别在 FEEDBACK COLLECTION 和 PREFERENCE COLLECTION 上训练的评估语言模型的权重,以获得最终的 PROMETHEUS 2 模型。具体来说,他们采用线性合并的方式:

$$
\theta_{final}=\alpha \times \theta_d+(1-\alpha) \times \theta_p
$$

其中 $\alpha$ 设为0.5。作者们还测试了其他合并技术,如 Task Arithmetic 合并、TIES 合并和 DARE 合并,并发现 DARE 合并在使用 Mixtral-8x7B 作为基础模型时效果最好。

实验设置
作者们在八个基准上评估了评估语言模型的性能,包括四个直接评估基准(Vicuna Bench、MT Bench、FLASK 和 Feedback Bench)和四个成对排序基准(HHH Alignment、MT Bench Human Judgment、Auto-J Eval 和 Preference Bench)。在直接评估中,他们进行了基于参考的评估,将参考答案附加为输入。他们使用 Pearson、Spearman 和 Kendall-Tau 作为性能度量,以衡量与参考评估者的评分相关性。在成对排序中,他们进行了无参考评估。根据人类给出的判断,他们使用准确率作为度量,以衡量评估语言模型与人类之间的一致性。

作者们使用多种基准模型进行比较,包括提示基准、单一格式训练的评估语言模型、联合训练的评估语言模型以及权重合并的 PROMETHEUS 2 模型。这些基准模型涵盖了不同的模型尺度和训练方法,以全面评估 PROMETHEUS 2 模型的性能。

实验结果  
实验结果显示,PROMETHEUS 2 模型在直接评估和成对排序基准上都取得了显著的性能提升。在直接评估基准上,PROMETHEUS 2 模型的评分决策与 GPT-4、Claude-3-Opus 和人类评估者的评分决策高度相关,无论参考评估者和基准如何,Pearson 相关系数都高于0.5。相比之下,基础语言模型、单一格式训练的语言模型和联合训练的语言模型与 GPT-4、Claude-3-Opus 和人类的相关性较低,大多低于0.5。值得注意的是,PROMETHEUS 2 模型在与专有语言模型的相关性上至少超过 Prometheus 和 Auto-J 0.2 个单位。此外,在 FLASK 基准上,虽然人类与 GPT-4 之间的相关性为0.679,但之前 Prometheus-13B 与人类的最高相关性为0.449,而 PROMETHEUS-2-8X7B 与人类的相关性达到了0.555,有效地将差距缩小了一半。

在成对排序基准上,PROMETHEUS 2 模型在所有四个基准上都取得了最高分数,表明它们能够有效地模拟人类判断。值得注意的是,虽然 HHH Alignment 是 Pair RM 的同域测试集,Auto-J Eval 是 Auto-J 的同域测试集,但 PROMETHEUS-2-8X7B 取得了更高的分数。这表明,用反馈数据训练大型语言模型(即 Mixtral-8x7B)可能是获得一个稳健的评估语言模型的有效策略,该模型可以超越其训练数据进行泛化。此外,与现有的评估语言模型相比,PROMETHEUS 2 模型在异域测试集上至少将与 GPT-4 的性能差距缩小了一半。

除了获得高相关性和准确性外,实现高一致性是评估语言模型的另一个重要方面。具体来说,作者们进行了一项实验,测试评估语言模型是否能在不同的评估格式下给出一致的分数。为此,他们使用成对排序基准,并测量在直接评估格式和成对排序格式下提示时的性能差异。结果表明,PROMETHEUS 2 模型在评估格式之间表现出较低的性能差异,表明它们具有稳健性。

讨论
为了理解权重合并方法在评估语言模型中的有效性,作者们提出了三个研究问题:

• RQ1:权重合并是否比联合训练更有效?(第6.1节) 

• RQ2:权重合并的有效性是否是由于模型集成?(第6.2节)

• RQ3:直接评估和成对排序之间的学习在多大程度上相互促进?(第6.3节)

令人惊讶的是,作者们发现,通过联合训练训练的评估语言模型的性能往往低于单一格式训练的评估语言模型,这表明

存在负迁移。具体而言,仅在直接评估格式上训练的评估语言模型在不同模型尺度下获得更高的相关性。类似地,仅在成对排序格式上训练的评估语言模型在使用 Mixtral-8x7B 作为基础模型时,获得更高的平均准确率。

另一方面,通过权重合并训练的评估语言模型不仅与联合训练的评估语言模型相比表现出优越的性能,而且与单一格式训练的评估语言模型相比也是如此,这表明存在正迁移。此外,尽管两者都互惠互利,但合并成对排序评估语言模型的权重比反向操作更能显著提高直接评估性能。

为了探索权重合并的有效性是否是由于模型集成的效果,作者们进行了一个消融实验,训练多个评估语言模型,并将它们合并。结果表明,在大多数情况下,合并在相同评估格式上训练的评估语言模型并不能提高评估性能。相反,通过合并分别在直接评估和成对排序格式上训练的两个评估语言模型,得到的评估语言模型在不同设置下表现出优越的性能。这表明,权重合并带来的正迁移来自统一不同的评估格式,而不是通过集成多个模型。  

为了探索直接评估反馈数据如何影响成对排序准确性,反之亦然,作者们通过调整线性合并期间的 $\alpha$ 值进行了实验。结果表明,对于直接评估基准,当 $\alpha$ 设置为0.5时,评估语言模型获得最佳性能。这间接表明,成对排序和直接评估反馈数据都同等重要。另一方面,对于成对排序基准,当 $\alpha$ 设置为0.3时,性能最佳。这也间接意味着,虽然两者都相互有益,但成对排序训练比反向操作更能显著提高直接评估性能。

我的观点
本文介绍了 PROMETHEUS 2,这是一个专门用于评估其他回应的开源语言模型。与现有的开源评估语言模型不同,PROMETHEUS 2 模型能够有效地处理直接评估和成对排序(最普遍的两种评估方案),在这两种方案上都表现出优越的性能和一致的结果,显著缩小了与专有语言模型评估的差距。为了训练 PROMETHEUS 2 模型,作者们开发了 PREFERENCE COLLECTION,这是第一个包含超过1000个实例级评估标准的成对排序数据集,超越了基本品质,如有帮助性和无害性。值得注意的是,作者们发现合并在直接评估或成对排序格式上训练的评估语言模型的权重,可以得到一个表现出色的统一评估语言模型。作者们希望这项工作能鼓励更多关于使用开源语言模型作为评估器的研究,从而摆脱对专有模型进行公平和可及的评估的依赖。

总的来说,这项研究的贡献是相当重要和有价值的。PROMETHEUS 2 模型在多个基准上优于现有的开源评估语言模型,展现了提出的权重合并方法的有效性。作者们还深入探讨了权重合并方法背后的原因,提供了有见地的分析。这项研究的结果对于开发更强大、更灵活的开源评估语言模型具有重要意义。它为未来在这个领域的研究提供了一个有前景的方向。随着越来越多的语言模型被开发出来,拥有一个稳健、可靠的评估语言模型将变得越来越重要。这项研究朝着这个目标迈出了重要的一步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/7349.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

图像处理-图像平滑

图像平滑 前言一、概念介绍1.1 图像的平滑1.2 图像中噪声的分类1.3 MATLAB的添加噪音代码 二、空间域平滑滤波2.1 均值滤波2.2 原理计算 总结 前言 在图像的获取、传输和存储过程常常收到各种噪声的干扰和影响,使得图像的质量下降,为了获得高质量的数字…

读天才与算法:人脑与AI的数学思维笔记20_数学图灵测试

1. 数学图灵测试 1.1. 能不能将这种计算机证明语言翻译成易于与人交流的方式呢? 1.1.1. 剑桥大学的两位数学家蒂莫西高尔斯(Timothy Gowers)和莫汉加内萨林加姆(Mohan Ganesalingam)开展了此项研究 1.1.1.1. 他们决…

与Apolo共创生态: Apollo X企业自动驾驶解决方案的亮点

文章目录 前言技术革新的里程碑Apollo X企业自动驾驶解决方案的亮点Application X企业预制套件的多场景覆盖Studio X企业协同工具链的全周期支持第一阶段:上机系统构建第二阶段:POC搭建第三阶段:规模运营小结 共创生态,共享未来共…

Mysql数据在磁盘上的存储结构

一. 前言 一行数据的存储格式大致如下所示: 变长字段的长度列表,null值列表,数据头,column01的值,column02的值,column0n的值… 二. 变长字段 在MySQL里有一些字段的长度是变长的,是不固定的,…

ContEA阅读笔记

Facing Changes: Continual Entity Alignment for Growing Knowledge Graphs 面对变化:不断增长的知识图谱的持续实体对齐 Abstract 实体对齐是知识图谱(KG)集成中一项基本且重要的技术。多年来,实体对齐的研究一直基于知识图谱是静态的假设&#xff…

人工智能的发展将如何重塑网络安全

微信搜索关注公众号网络研究观,获取更多信息。 人们很容易认为人工智能 (AI) 真正出现是在 2019 年,当时 OpenAI 推出了 ChatGPT 的前身 GPT-2。 但现实却有些不同。人工智能的基础可以追溯到 1950 年,当时数学家艾伦图灵发表了题为“计算机…

微信小程序如何使用svg矢量图标

微信小程序如何使用自定义SVG矢量图标 在微信小程序中,经常会用到小图标来装饰界面,我们常用的方法就是引用第三方的图标,但会存在收费或者找不到合适的图标,这时候我建议可以自行编写svg图标代码,就可以随心所欲的使…

【一起深度学习——kaggle叶子分类】

kaggle 叶子分类 目的:将叶子进行分类。实现步骤:1、数据处理:2、加载数据3、 定义残差块4、定义Resnet模型。5、定义训练以及评估函数:6、开始训练:7、输出结果: 目的:将叶子进行分类。 实现步…

知识图谱:人工智能的“核心驱动力”

知识图谱:人工智能的“核心驱动力” 一、人工智能与知识图谱二、知识图谱的定义与重要性三、知识图谱工程师的薪资情况四、知识图谱的应用领域六、知识图谱的未来展望七、总结 一、人工智能与知识图谱 人工智能(AI)作为21世纪的前沿技术&…

设备树与/sys/bus/platform/devices与/sys/devices目录关系

设备树与sys/bus/platform/devices sysfs文件系统中/sys/bus/platform/devices下的设备是由设备树生成, 根节点下有compatible的子节点都会在/bus/platform/devices生成节点 总线 I2C、SPI 等控制器会在/bus/platform/devices生成节点 总线 I2C、SPI 节点下的子节点…

牛客网刷题 | BC78 KiKi说祝福语

目前主要分为三个专栏,后续还会添加: 专栏如下: C语言刷题解析 C语言系列文章 我的成长经历 感谢阅读! 初来乍到,如有错误请指出,感谢! 描述 2020年来到了&#…

【Qt】按钮类控件

文章目录 1 :peach:Push Button:peach:2 :peach:Radio Buttion:peach:3 :peach:Check Box:peach:4 :peach:Tool Button:peach: 1 🍑Push Button🍑 使⽤ QPushButton 表⽰⼀个按钮,这也是当前我们最熟悉的⼀个控件了,QPushButton …

SOL链DApp智能合约代币质押挖矿分红系统开发

随着区块链技术的不断发展和普及,越来越多的项目开始探索基于区块链的去中心化应用(DApp)。Solana(SOL)作为一条高性能、低成本的区块链网络,吸引了众多开发者和项目,其中包括了各种类型的DApp&…

Altium Designer——检查原理图库正确性并生成报告

一、方法: 1.打开原理图库: 2.点击菜单栏的报告选项: 3.选择器件规则检查: 根据需求勾选,一般都是全部勾选: 二、问题: 1.缺少封装会导致什么问题: 1.首先: 封装是…

MWeb Pro for Mac:功能强大的Markdown博客编辑器

MWeb Pro for Mac是一款功能强大的Markdown博客编辑器,专为Mac用户设计,提供了一站式的博客写作和发布体验。这款软件不仅支持Markdown语法,还提供了丰富的编辑和排版功能,让用户能够轻松创建出精美的博客内容。 MWeb Pro的即时预…

重庆事业编5月7号开始报名⚠️报名照需审核

24年第二季度重庆事业编招聘 本次招聘实行网上报名。考生应按照招聘岗位要求,诚信、准确填写报考信息,并按网页提示上传电子材料(含电子登记照,jpg格式,20kb以下)。招聘方按照岗位报考要求,对考…

深度学习中的优化算法:选择现有的还是自创?

深度学习中的优化算法 深度学习中的优化算法:选择现有的还是自创?现有优化算法的优势**优点包括**: 开发新的优化算法的考虑**开发新算法的原因**:**开发新算法的风险**: 实用建议结论 深度学习中的优化算法&#xff1…

Mac跑llama.cpp过程中遇到的问题

原repo 在华为手机上安装termux、下载库:顺利在电脑上安装Android NDK:先下载Android Studio,再在里面下载Android SDK 安装Android Studio时,SDK的某些组件总是下载不成功。后来关了梯子、改了hosts,重新安装就成功了…

Ansible---自动化运维工具

一、Ansible概述 1.1 Ansible简介 Ansible是一款自动化运维工具,通过ssh对目标主机进行配置、应用部署、任务执行、编排调度等操作。它简化了复杂的环境管理和自动化任务,提高了工作效率和一致性,同时,Ansible的剧本(playbooks)…

53. 【Android教程】Socket 网络接口

Socket 网络接口 大家在学习计算机网络的时候一定学习过 TCP/IP 协议以及最经典的 OSI 七层结构,简单的回忆一下这 7 层结构: 从下到上依次是: 物理层数据链路层互联层网络层会话层表示层应用层 TCP/IP 协议对这 7 层了做一点精简&#xff…