探索大型语言模型自动评估 LLM 输出长句准确性的方法

LLM现在能够自动评估较长文本中的事实真实性

源码地址:https://github.com/google-deepmind/long-form-factuality
论文地址:https://arxiv.org/pdf/2403.18802.pdf

这篇论文是关于谷歌DeepMind的,提出了新的数据集、评估方法和衡量标准,用于对 LLM 长式事实性(长式事实性)和信息准确性进行基准测试。

研究要点包括:

  • 挑战:没有数据集、评估方法或指标来评估LLM长式产出的真实性
  • 解决方法:数据集 “LongFact”、自动评估方法 "SAFE "和评估指标 “F1@K”。
  • 第 1 点:上述方法可以量化 “法律硕士长式成果的事实性”。
  • 第 2 点:模型越大,越长的陈述越符合事实。

换句话说,这项研究可用于自动评估 LLM 输出的长式信息的准确性,并为 LLM 的未来发展提供参考。

LLM业绩评估的现状

近年来,法律硕士的成绩有了显著提高,但同时他们也存在"导致幻觉 "和 "说谎"的问题。特别是,"输出长句时准确度的显著降低 "是一个关键问题。其中一个原因是没有数据集可以评估法律硕士长篇回答问题的真实性。这是因为现有的大多数数据集主要是要求人们回答简短问题的问答,因此很难评估长式答案的真实性。此外,还没有确定量化长刑期事实的方法或指标,因此无法对其进行成功评估。

本研究提出的方法。

如前所述,该研究提出了以下三种对长篇法律硕士论文事实性的自动评估方法。

  • LongFact
  • SAFE(搜索增强事实评估器)。
  • F1@K

让我们依次来详细了解一下。

数据集: LongFact

LongFact 是本文提出的新问答数据集。

主要功能包括

  • 包括 38 个主题的 2,280 个事实调查问题
  • 主题分为四类:STEM(科学、技术、工程和数学)、社会科学、人文科学和其他。
  • 包括需要长时间回答的问题
  • 使用 GPT-4生成问题。
  • 从生成的问题中删除重复问题,并为每个主题随机抽取 30 个问题

下图左侧显示的是 “包含在 LongFact 中的问题主题百分比”,右侧显示的是 “现有数据集与 LongFact 的比较”。

与现有的数据集相比,LongFact 是可用于评估长句事实性的数据集中主题数量最多的数据集。顺便提一下,LongFact 在 GitHub 上公开发布,任何人都可以使用。因此,它有望成为未来 LLM 研究的基础。

评估方法:SAFE(Search-Augmented Factuality Evaluator)

SAFE(Search-Augmented Factuality Evaluator)是本文提出的一种用于自动评估长格式事实性(LLM)的方法。

下图是 SAFE 的概览。

SAFE 的评估按以下顺序进行

  1. 向 LLM 输入 “提示”,并让它输出 “响应”。
  2. 使用 LLM 将回复文本分解为若干 “要素”。
  3. 使用 LLM 确定 “分解的各个元素是否与输入的提示相关”。
  4. 使用已确定相关的 "单个元素 "的 LLM 生成 Google 搜索查询。
  5. 使用生成的查询进行谷歌搜索
  6. 确定谷歌搜索结果中的 "个别元素 "是否为正确信息(以及是否有充分依据)。

实质上,如下图所示,输出文本被分解为其元素、查询生成和谷歌搜索,从搜索结果中寻找支持事实的信息。

当然,"正确信息元素数量 "越多,LLM 输出的响应就越可靠

当作者为 SAFE 与人类意见不一致的 100 个事实分配正确标签时,他们发现 SAFE 的正确率为 76%,而人类的正确率仅为 19%。此外,SAFE 的表现优于人类,而成本却不到人类评分者的二十分之一。

这意味着,SAFE 将被证明成本相对较低,准确性较高。

顺便提一下,SAFE 的实施代码也在GitHub 上以开源方式提供,任何人都可以使用。

评价指标:F1@K

F1@K 是一个同时考虑拟合率(精确度)和重复率(召回率)的指标。其具体定义如下

  • 一致率 Prec(y):输出 y 中 "正确信息要素 "的百分比
  • 复制率 RK(y):输出 y 中 "正确信息元素 "数量的最小值 S(y) 除以用户预期偏好的输出句子长度(正确信息元素数量)的数量 K min(S(y)/K,1)

而 F1@K 则将拟合度和可重复性与下式相结合。

如果 S(y)>0:.

F1@K(y)=2∗Prec(y)∗RK(y)Prec(y)+RK(y)

如果 S(y)=0:.

F1@K(y)=0。

换句话说,F1@K 的值介于 0 和 1 之间,越接近 1 表示长文本的事实性越强�

K 是一个超参数,代表用户偏好的输出文本长度(正确信息元素的数量)。假设用户认为最多 K 个 "信息正确元素 "越多越好,但对超过 K 个的 "信息正确元素 "则漠不关心。

例如,如果 K=64,用户认为 64 以内的 "正确信息要素 "越多越好,但对第 65 条及以后的信息则漠不关心。

K 值需要根据用户的偏好来设置。

这样不仅可以评估信息是否符合事实,还可以评估信息是否包含足够的信息量。

事实上,本文使用 F1@K 对 13 个 LLM 进行了基准测试,并比较了这些模型在长句中的实际表现。

使用该数据集和评估指标及方法对 LLM 性能进行比较。

实验细节

LongFact 对 13 个 LLM(Gemini、GPT、Claude 和 PaLM-2 系列)进行了基准测试,以研究LLM 中"模型大小 "与 "长文本事实性 "之间的关系。

具体来说,每个模型都会针对从 LongFact 中随机抽取的 250 个问题生成输出结果,并使用 SAFE 进行评估。

然后,他们对 F1@K(K=64 和 K=178)的性能进行了量化和比较。

结果

实验结果表明,模型越大,越长的陈述越符合事实。

例如,GPT-4-Turbo 的事实性高于 GPT-4,GPT-4 的事实性高于 GPT-3.5-Turbo。我们还可以看到,Gemini-Ultra 的事实性高于 Gemini-Pro,PaLM-2-L-IT-RLHF 的事实性高于 PaLM-2-L-IT。

此外,无论 K 值如何,三个最符合事实的模型是 GPT-4-Turbo、Gemini-Ultra 和 PaLM-2-L-IT-RLHF。

期望这项研究将成为未来法律硕士发展的基础

本文介绍了谷歌 DeepMind 关于 "正确评估长篇法律硕士论文中信息的事实性和准确性的方法 "的研究。本研究提出了 LongFact、自动评估方法 SAFE 和 F1@K 指标,用于评估长句中 LLM 的事实性。这些将有助于澄清长篇文本中大规模语言模型的事实性现状,并为今后的研究提供基础。

本研究的局限性如下:

  • LongFact 和 SAFE 依赖于 LLM,因此直接受到所用 LLM 功能的影响
  • SAFE 依靠谷歌搜索,可能无法正确评估某些事实
  • 至于 SAFE 的性能是否与 "人类专家级评估员 "相当或更好,尚未进行测试。

因此,他们计划今后开展有关学习、微调和使用外部工具的研究,以提高较长法律硕士课程的事实性。他还表示,SAFE "依赖语言模型 "的改进以及根据 LLM 内部知识评估较长文本中事实准确性的方法的开发也在计划阶段。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/41159.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue2+element-ui新增编辑表格+删除行

实现效果&#xff1a; 代码实现 &#xff1a; <el-table :data"dataForm.updateData"border:header-cell-style"{text-align:center}":cell-style"{text-align:center}"><el-table-column label"选项字段"align"center&…

Linux 内核 GPIO 用户空间接口

文章目录 Linux 内核 GPIO 接口旧版本方式&#xff1a;sysfs 接口新版本方式&#xff1a;chardev 接口 gpiod 库及其命令行gpiod 库的命令行gpiod 库函数的应用 GPIO&#xff08;General Purpose Input/Output&#xff0c;通用输入/输出接口&#xff09;&#xff0c;是微控制器…

哪里还可以申请免费一年期的SSL证书?

目前&#xff0c;要申请免费一年期的SSL证书&#xff0c;选项较为有限&#xff0c;因为多数供应商已转向提供短期的免费证书&#xff0c;通常有效期为90天。不过&#xff0c;有一个例外是JoySSL&#xff0c;它仍然提供一年期的免费SSL证书&#xff0c;但是只针对教育版和政务版…

html三级菜单

示例 <!DOCTYPE html> <html lang"en"> <head> <meta charset"UTF-8"> <meta name"viewport" content"widthdevice-width, initial-scale1.0"> <title>Menu Example</title> <link re…

LED显示屏跟COB显示屏有哪些不同?

COB显示屏跟LED显示屏的主要区别在于产品的显示效果、封装技术、耐用性、防护力、维护以及制造成本方面的不同&#xff0c;这里所说的LED显示屏主要指的是使用SMD封装的LED显示屏&#xff0c;今天跟随COB显示屏厂家中品瑞科技一起来详细看看具体分析&#xff1a; 一、封装技术 …

品牌推广的深层逻辑:自我提升与市场认同的和谐共生

品牌推广的深层逻辑&#xff1a;自我提升与市场认同的和谐共生 著名飞行员查尔斯林德伯格(Charles Lindbergh) 曾写道:“改善生活方式比传播生活方式更重要。如果我们自己的生活方式使别人感到满意&#xff0c;那么它将自动蔓延。如果不是这样&#xff0c;那么任何武力都不可能…

如何在 Odoo 16 中继承和更新现有邮件模板

在本文中,让我们看看如何在 Odoo 16 中继承和编辑现有邮件模板。我们必须这样做才能对现有模板的内容进行任何调整或更新。让我们考虑一个在会计模块中更新邮件模板的示例。 单击“account.move”模型中的“发送并打印”按钮后,将打开上述向导。在这里,我们将进行更改。从…

8人团队历时半年打造开源版GPT-4o,零延迟演示引爆全网!人人可免费使用!

目录 01 Moshi 02 背后技术揭秘 GPT-4o可能要等到今年秋季才会公开。 然而&#xff0c;由法国8人团队开发的原生多模态Moshi&#xff0c;已经达到了接近GPT-4o的水平&#xff0c;现场演示几乎没有延迟&#xff0c;吸引了大量AI专家的关注。 令人惊讶的是&#xff0c;开源版的…

Python酷库之旅-第三方库Pandas(003)

目录 一、用法精讲 4、pandas.read_csv函数 4-1、语法 4-2、参数 4-3、功能 4-4、返回值 4-5、说明 4-6、用法 4-6-1、创建csv文件 4-6-2、代码示例 4-6-3、结果输出 二、推荐阅读 1、Python筑基之旅 2、Python函数之旅 3、Python算法之旅 4、Python魔法之旅 …

T100-XG查询报表的开发

制作XG报表 1、注册程序 azzi900 首先现将程序注册一下,在内部构建基础代码档。 2、注册作业 azzi910 也是直接新增一个,作业跟程序绑定一下。 3、T100签出规格程序 这个时候应该是没签出的,首先将规格迁出。 4、T100画面产生器 规格迁出之后,这个时候还需要生成一个画…

springcloud-gateway 网关组件中文文档

Spring Cloud网关 Greenwich SR5 该项目提供了一个基于Spring生态系统的API网关&#xff0c;其中包括&#xff1a;Spring 5&#xff0c;Spring Boot 2和项目Reactor。Spring Cloud网关的目的是提供一种简单而有效的方法来路由到API&#xff0c;并向它们提供跨领域的关注&#x…

配置基于不同IP地址的虚拟主机

定义配置文件vhost.conf <directory /www> allowoverride none require all granted </directory> <virtualhost 192.168.209.136:80> documentroot /www servername 192.168.209.136 </virtualhost><virtualhost 192.168.209.138:80> document…

Restore Equipment

Restore Equipment 魔兽世界 - 盗号申请 - 恢复装备流程 魔兽和网易真的不行啊 1&#xff09;这个装备本来就是兑换的竟然可以卖NPC 2&#xff09;针对这个情况竟然无法挽回 3&#xff09;设计理念真的不得不吐槽一下 4&#xff09;策划真的不咋样&#xff0c;要是有机会我要自…

【C++】 解决 C++ 语言报错:Stack Overflow

文章目录 引言 栈溢出&#xff08;Stack Overflow&#xff09;是 C 编程中常见且严重的错误之一。栈溢出通常发生在程序递归调用过深或分配过大的局部变量时&#xff0c;导致栈空间耗尽。栈溢出不仅会导致程序崩溃&#xff0c;还可能引发不可预测的行为。本文将深入探讨栈溢出…

Linux系统安装青龙面板结合内网穿透实现使用公网地址远程访问

文章目录 前言一、前期准备本教程环境为&#xff1a;Centos7&#xff0c;可以跑Docker的系统都可以使用。本教程使用Docker部署青龙&#xff0c;如何安装Docker详见&#xff1a; 二、安装青龙面板三、映射本地部署的青龙面板至公网四、使用固定公网地址访问本地部署的青龙面板 …

【带你全面了解 RAG,深入探讨其核心范式、关键技术及未来趋势】

文末有福利&#xff01; 大型语言模型&#xff08;LLMs&#xff09;已经成为我们生活和工作的一部分&#xff0c;它们以惊人的多功能性和智能化改变了我们与信息的互动方式。 然而&#xff0c;尽管它们的能力令人印象深刻&#xff0c;但它们并非无懈可击。这些模型可能会产生…

HY lisp quote unquote等学习

​ 宏相关语法糖 This is all resolved at the reader level, so the model that gets produced is the same whether you take your code with sugar or without. Macro Syntax quote FORM quasiquote FORM unquote ~FORM unquote-splice ~FORM unpack-iterable …

昇思25天学习打卡营第16天 | DCGAN生成漫画头像

这两天把minspore配置到我的电脑上了&#xff0c;然后运行就没什么问题了✨&#x1f60a; 今天学这个DCGAN生成漫画头像&#xff0c;我超级感兴趣的嘞&#x1f984;&#x1f970; GAN基础原理 这部分原理介绍参考GAN图像生成。 DCGAN原理 DCGAN&#xff08;深度卷积对抗生成…

秒验—手机号码置换接口

功能说明 提交客户端获取到的token、opToken等数据&#xff0c;验证后返回手机号码 服务端务必不要缓存DNS&#xff0c;否则可能影响服务高可用性 调用地址 POST https://identify-verify.dutils.com/auth/auth/sdkClientFreeLogin 请求头 Content-Type &#xff1a;appli…

图书商城系统java项目ssm项目jsp项目java课程设计java毕业设计

文章目录 图书商城系统一、项目演示二、项目介绍三、部分功能截图四、部分代码展示五、底部获取项目源码&#xff08;9.9&#xffe5;带走&#xff09; 图书商城系统 一、项目演示 图书商城系统 二、项目介绍 语言: Java 数据库&#xff1a;MySQL 技术栈&#xff1a;SpringS…