《大型语言模型自然语言生成评估》综述

图片

在快速发展的自然语言生成(NLG)评估领域中,引入大型语言模型(LLMs)为评估生成内容质量开辟了新途径,例如,连贯性、创造力和上下文相关性。本综述旨在提供一个关于利用LLMs进行NLG评估的全面概览,这是一个缺乏系统分析的新兴领域。我们提出了一个连贯的分类体系来组织现有的基于LLM的评估指标,提供了一个结构化的框架来理解和比较这些方法。我们的详细探索包括批判性地评估各种基于LLM的方法论,以及比较它们在评估NLG输出时的优势和局限性。通过讨论尚未解决的挑战,包括偏见、稳健性、领域特定性和统一评估,本综述旨在为研究人员提供洞见,并倡导更公平、更先进的NLG评估技术。

自然语言生成(NLG)处于现代AI驱动通信的前沿,近期在大型语言模型(LLMs)方面的进展彻底改变了NLG系统的能力(Ouyang et al., 2022; OpenAI, 2023)。这些模型,依靠深度学习技术和大量的训练数据,展现出在广泛应用中生成文本的卓越能力。随着NLG技术的快速发展,建立可靠的评估方法以准确衡量生成内容的质量变得越来越重要。

传统的NLG评估指标,如BLEU(Papineni et al., 2002)、ROUGE(Lin, 2004)和TER(Snover et al., 2006),主要关注表面层面的文本差异,通常在评估语义方面存在不足(Freitag et al., 2020)。这一局限性已被指出阻碍了研究进展,并可能导致误导性的研究结论。此外,其他使用神经嵌入来计算分数的方法(Liu et al., 2016; Sellam et al., 2020; Zhang et al., 2020),尽管在评估诸如语义等价性和流畅性方面有所考虑,但它们的灵活性有限,适用范围受限(Freitag et al., 2021a)。此外,这些传统方法与人类判断的一致性较低(Liu et al., 2023c),且对分数的解释性不足(Xu et al., 2023)。这些缺点突显了NLG领域需要更细腻和全面的评估方法的需求。

大型语言模型(LLMs)涌现的能力为基于LLM的NLG评估提供了有前景的途径,例如Chain-of-Thought(CoT)(Wei et al., 2022b)、零次学习指令跟随(Wei et al., 2022a)、更好地与人类偏好相一致(Ouyang et al., 2022)等。这些特性使LLMs成为评估NLG输出的有力工具,与传统方法相比提供了更为复杂和更好地与人类一致的评估(Liu et al., 2023c;Kocmi and Federmann, 2023;Fu et al., 2023)。例如,LLMs可以生成合理的解释来支持最终评分(Xu et al., 2023),而利用人类反馈的强化学习(RLHF)可以使LLMs的偏好更好地与人类一致(Ouyang et al., 2022;Zheng et al., 2023)。如图1所示,这些方法的关键策略涉及指示LLMs使用提示来从不同方面评估生成的文本,无论是否有参考资料和来源。然而,众多基于LLM的NLG评估方法,针对不同的任务和目标,缺乏统一的概述。

鉴于LLMs在NLG评估领域的工作量不断增加,迫切需要一个综合总结来导航这一领域内的复杂性和多样化方法。本综述旨在提供这一有前景领域的全面概述,呈现一个用于组织现有工作的连贯分类体系。我们详细勾勒了关键研究及其方法论,并深入分析了这些方法的各种优点、局限性和独特属性。此外,我们探索了该领域内尚未解决的挑战和开放性问题,从而为未来的学术探索勾画出潜在的途径。这一全面探索旨在激发读者对LLM在NLG评估中方法的细微差别和不断变化的动态有深入的了解。

本综述的组织我们呈现了利用LLMs进行NLG评估的首个全面综述。首先,我们建立了NLG评估的正式框架,并提出了一个分类体系来分类相关工作(第2节)。随后,我们深入并详细阐述这些工作(第3节)。此外,我们对评估LLM评估者有效性的各种元评估基准进行了系统回顾(第4节)。鉴于这一领域的快速发展,我们确定并讨论了一些可能指导未来研究的潜在开放问题(第5节)。在结束这一系统综述时,我们倡导通过开发更公正、更稳健、更专业和统一的基于LLM的评估者来推动这一领域的发展。此外,我们强调整合其他评估方法,如人类判断,以实现更全面和多面的评估框架。

图片

在大型语言模型(LLMs)迅速发展的背景下,越来越多的研究将重点放在利用这些模型作为NLG任务的评估者。这种关注特别源于LLMs的高容量生成能力,导致出现了使用它们来对NLG文本进行质量评估的工作——我们将这种范式称为生成性评估。这一类别大致分为基于提示的评估和基于微调的评估,其核心在于LLM评估者的参数是否需要微调。基于提示的评估通常涉及使用精心设计的提示指导强大的基础LLMs来评估生成的文本。另一方面,基于微调的评估依赖于专门为NLG评估校准的开源LLMs。这两种方法都适用于不同的评估协议,用于衡量生成文本的质量。

当前方法考虑不同的评分协议来判断生成假设文本的质量。一些尝试部署LLM评估者产生连续的标量分数,代表单个生成文本的质量——称为➊ 基于分数的评估。其他方法计算基于提示、来源或参考文本(可选)的生成文本的生成概率作为评估指标,称为➋ 基于概率的评估。在多样化的领域中,某些工作将NLG评估转化为分类任务,使用类似李克特量表的多级别对文本质量进行分类。在这种情况下,LLM评估者通过将生成的文本分配到特定的质量级别来评估其质量——称为➌ 李克特风格评估。同时,➍ 成对比较方法涉及使用LLM评估者比较一对生成文本的质量。此外,➎ 组合评估方法利用多个不同LLMs或提示的LLM评估者,协调评估者之间的沟通以产生最终评估结果。最后,一些最新的研究探索了➏ 高级评估方法(考虑细粒度标准或结合连续思考或上下文学习的能力),旨在获得更全面和细致的评估结果。

本节深入探讨了这两个主要类别的评估方法,每种方法都伴随其相应的评估协议。表2提供了当前基于提示和基于微调评估方法的全面概述。该表详细说明了它们各自的适应任务、基础模型、评分协议和评估方面,以便于清晰参考。

图片

基于LLM的评估者已在多种NLG任务中找到应用。与此同时,众多现有和近期引入的元评估基准用于验证这些评估者的有效性。这些基准包括了对生成文本质量的人类注释,以及评估自动评估者和人类偏好之间一致性的程度。根据涉及的任务,这些基准可以被分类为单一场景示例,如机器翻译和摘要,以及多场景基准。本节将提供这些NLG任务及其相关元评估基准的概述。

结论

在本综述中,我们详尽地调查了LLMs在NLG评估中的作用。我们全面的分类体系按三个主要维度对作品进行分类:评估功能、评估参考和评估任务。这个框架使我们能够系统地分类和理解基于LLM的评估方法论。我们深入探讨了各种基于LLM的方法,审视它们的优势并比较它们的差异。此外,我们总结了NLG评估的普遍元评估基准。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/642736.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一篇就学会接口,全网最详细的接口测试

大多数人对于接口测试都觉得是一种高大上的测试,觉得学会接口测试就可以从小白测试员,变成了高级测试员,但其实接口测试只是测试的基础内容 什么是接口 接口泛指实体把自己提供给外界的一种抽象化物(可以为另一实体)&…

开始学习Vue2(脚手架,组件化开发)

一、单页面应用程序 单页面应用程序(英文名:Single Page Application)简 称 SPA,顾名思义,指的是一个 Web 网站中只有唯一的 一个 HTML 页面,所有的功能与交互都在这唯一的一个页面内完成。 二、vue-cli …

java web mvc-02-struts2

拓展阅读 Spring Web MVC-00-重学 mvc mvc-01-Model-View-Controller 概览 web mvc-03-JFinal web mvc-04-Apache Wicket web mvc-05-JSF JavaServer Faces web mvc-06-play framework intro web mvc-07-Vaadin web mvc-08-Grails Struts2 Apache Struts是一个用于创…

Redis 笔记二

概览 1.高并发秒杀问题及可能出现的bug 2.秒杀场景JVM级别锁和分布式锁 3.大厂分布式锁Redisson框架 4.从Redisson源码剖析lua解决锁原子性问题 5.从Redisson源码剖析经典锁续命问题 6.Redis主从架构锁失效如何解决 7.Redlock分布式锁高并发下可能存在的问题 8.双十一大促如何将…

alfred自定义谷歌翻译workflow

如果要实现自定义workflow,则必须安装付费版的alfred,囊中羞涩的话可以自行淘宝。自定义步骤如下: 1. 新建空的workflow,填写基本信息 2. 开发python脚本 打开该workflow所在目录,进行下面步骤: 首先安装…

OpenCV第 1 课 计算机视觉和 OpenCV 介绍

文章目录 第 1 课 计算机视觉和 OpenCV 介绍1.机器是如何“看”的2.机器视觉技术的常见应用3.图像识别介绍4. 图像识别技术的常见应用5.OpenCV 介绍6.图像在计算机中的存储形式 第 1 课 计算机视觉和 OpenCV 介绍 1.机器是如何“看”的 我们人类可以通过眼睛看到五颜六色的世界…

一文(10图)了解Cornerstone3D核心概念(万字总结附导图)

Cornerstone3D介绍 Cornerstone3D是一个专门为处理三维医学影像而设计的JavaScript库。 它是Cornerstone项目的一部分,旨在为医学影像社区提供高性能、可扩展且易于使用的开源Web工具,专注于提供交互式的3D医学图像浏览体验,适用于多种医学…

9款最新文生图模型汇总!含华为、谷歌、Stability AI等大厂创新模型(附论文和代码)

2023年真是文生图大放异彩的一年,给数字艺术界和创意圈注入了新鲜血液。从起初的基础图像创作跃进到现在的超逼真效果,这些先进的模型彻底变革了我们制作和享受数字作品的途径。 最近,一些大公司比如华为、谷歌、还有Stability AI等人工智能巨…

【Linux】Linux进程信号(上)

​ ​📝个人主页:Sherry的成长之路 🏠学习社区:Sherry的成长之路(个人社区) 📖专栏链接:Linux 🎯长路漫漫浩浩,万事皆有期待 上一篇博客:【Linux】…

【新加坡机器人学会支持】第三届工程管理与信息科学国际学术会议 (EMIS 2024)

第三届工程管理与信息科学国际学术会议 (EMIS 2024) 2024 3rd International Conference on Engineering Management and Information Science 【国际高级别专家出席/新加坡机器人学会支持】 第三届工程管理与信息科学国际学术会议 (EMIS 2024)将于2024年4月12-14日在中国洛…

算法(4)——前缀和

目录 一、前缀和的定义 二、一维前缀和 三、一维前缀和OJ题 3.1、前缀和 3.2、寻找数组中心下标 3.3、除自身以外数组的乘积 3.4、和为K的数组 3.5、和可被K整除的子数组 3.6、连续数组 四、二位前缀和 4.1、二维前缀和 4.2、矩阵区域和 一、前缀和的定义 对于一个…

40. 组合总和 II - 力扣(LeetCode)

题目描述 给定一个候选人编号的集合 candidates 和一个目标数 target ,找出 candidates 中所有可以使数字和为 target 的组合。 candidates 中的每个数字在每个组合中只能使用 一次 。 注意:解集不能包含重复的组合。 输入示例 candidates [10,1,2,7,…

Oracle Apps文件系统和数据库的维护工作ADADMIN

ADADMIN主要用于Oracle Apps文件系统和数据库的维护工作,是Apps DBA常用的工具。其一级菜单的具体功能介绍如下: AD Administration Main Menu: Generate Applications Files:如果系统用户无法访问Message、Form或者Report&#…

开始学习vue2(Vue方法)

一、过滤器 过滤器(Filters)是 vue 为开发者提供的功能,常用于文本的格式 化。过滤器可以用在两个地方:插值表达式 和 v-bind 属性绑定。 过滤器应该被添加在 JavaScript 表达式的尾部,由“管道符 ”进行 调用&#…

【Leetcode 144.二叉树的前序遍历】将二叉树每个节点的值以前序遍历的顺序存入数组中

int* preorderTraversal( struct TreeNode*root, int* returnSize) { }解答代码: int TreeSize(struct TreeNode*root){return rootNULL?0:TreeSize(root->left)TreeSize(root->right)1;}void Prevorder(struct TreeNode*root,int*a,int*pi){if(rootNULL)re…

理解反向代理

反向代理是一个不可或缺的组件。 它在客户端和服务器之间充当中介,提高了安全性、负载平衡和应用性能。 一、反向代理简介 反向代理是一种服务器,它位于客户端和后端服务器之间。与常见的(正向)代理不同,反向代理代表…

宝塔面板部署MySQL并结合内网穿透实现公网远程访问本地数据库

文章目录 前言1.Mysql服务安装2.创建数据库3.安装cpolar3.2 创建HTTP隧道 4.远程连接5.固定TCP地址5.1 保留一个固定的公网TCP端口地址5.2 配置固定公网TCP端口地址 前言 宝塔面板的简易操作性,使得运维难度降低,简化了Linux命令行进行繁琐的配置,下面简单几步,通过宝塔面板cp…

【C++】list的使用

目录 1 构造1.1 无参构造1.2 构造的list中包含n个值为val的元素1.3 用[first, last)区间中的元素构造list1.4 拷贝构造 2 迭代器的使用2.1 begin end2.2 rbegin rend 3 容量操作3.1 empty size 4 获取元素4.1 front back 5 插入、删除、修改5.1 头插-push_front和尾插-push…

oracle 19c rac集群管理 ------ 日志管理

oracle 19C rac 数据库的目录结构及日志路径 在Oracle 19c RAC(Real Application Clusters)集群中,有多个组件和层级生成的日志文件,记录着集群的活动、事件和错误信息,用于故障诊断、性能优化和集群管理。以下是常见…

ubuntu 20.04 更新 autoconf 版本

前言 由于最近打算交叉编译 python,依赖 libffi 库,而交叉编译 libffi 库,由于使用的是 github 上的 libffi,又提示 autoconf 版本太低了,所以,先更新 autoconf 的版本 当前 ubuntu 20.04 上安装的 autuco…