探索大型语言模型自动评估 LLM 输出长句准确性的方法

探索大型语言模型自动评估 LLM 输出长句准确性的方法

diannao/2025/7/13 20:49:02/文章来源:https://blog.csdn.net/matt45m/article/details/140123553

LLM现在能够自动评估较长文本中的事实真实性

源码地址：https://github.com/google-deepmind/long-form-factuality
论文地址：https://arxiv.org/pdf/2403.18802.pdf

这篇论文是关于谷歌DeepMind的，提出了新的数据集、评估方法和衡量标准，用于对 LLM 长式事实性（长式事实性）和信息准确性进行基准测试。

研究要点包括：

挑战：没有数据集、评估方法或指标来评估LLM长式产出的真实性
解决方法：数据集 “LongFact”、自动评估方法 "SAFE "和评估指标 “F1@K”。
第 1 点：上述方法可以量化 “法律硕士长式成果的事实性”。
第 2 点：模型越大，越长的陈述越符合事实。

换句话说，这项研究可用于自动评估 LLM 输出的长式信息的准确性，并为 LLM 的未来发展提供参考。

LLM业绩评估的现状

近年来，法律硕士的成绩有了显著提高，但同时他们也存在"导致幻觉 "和 "说谎"的问题。特别是，"输出长句时准确度的显著降低 "是一个关键问题。其中一个原因是没有数据集可以评估法律硕士长篇回答问题的真实性。这是因为现有的大多数数据集主要是要求人们回答简短问题的问答，因此很难评估长式答案的真实性。此外，还没有确定量化长刑期事实的方法或指标，因此无法对其进行成功评估。

本研究提出的方法。

如前所述，该研究提出了以下三种对长篇法律硕士论文事实性的自动评估方法。

LongFact
SAFE（搜索增强事实评估器）。
F1@K

让我们依次来详细了解一下。

数据集： LongFact

LongFact 是本文提出的新问答数据集。

主要功能包括

包括 38 个主题的 2,280 个事实调查问题
主题分为四类：STEM（科学、技术、工程和数学）、社会科学、人文科学和其他。
包括需要长时间回答的问题
使用 GPT-4生成问题。
从生成的问题中删除重复问题，并为每个主题随机抽取 30 个问题

下图左侧显示的是 “包含在 LongFact 中的问题主题百分比”，右侧显示的是 “现有数据集与 LongFact 的比较”。

与现有的数据集相比，LongFact 是可用于评估长句事实性的数据集中主题数量最多的数据集。顺便提一下，LongFact 在 GitHub 上公开发布，任何人都可以使用。因此，它有望成为未来 LLM 研究的基础。

评估方法：SAFE（Search-Augmented Factuality Evaluator）

SAFE（Search-Augmented Factuality Evaluator）是本文提出的一种用于自动评估长格式事实性（LLM）的方法。

下图是 SAFE 的概览。

SAFE 的评估按以下顺序进行

向 LLM 输入 “提示”，并让它输出 “响应”。
使用 LLM 将回复文本分解为若干 “要素”。
使用 LLM 确定 “分解的各个元素是否与输入的提示相关”。
使用已确定相关的 "单个元素 "的 LLM 生成 Google 搜索查询。
使用生成的查询进行谷歌搜索
确定谷歌搜索结果中的 "个别元素 "是否为正确信息（以及是否有充分依据）。

实质上，如下图所示，输出文本被分解为其元素、查询生成和谷歌搜索，从搜索结果中寻找支持事实的信息。

当然，"正确信息元素数量 "越多，LLM 输出的响应就越可靠

当作者为 SAFE 与人类意见不一致的 100 个事实分配正确标签时，他们发现 SAFE 的正确率为 76%，而人类的正确率仅为 19%。此外，SAFE 的表现优于人类，而成本却不到人类评分者的二十分之一。

这意味着，SAFE 将被证明成本相对较低，准确性较高。

顺便提一下，SAFE 的实施代码也在GitHub 上以开源方式提供，任何人都可以使用。

评价指标：F1@K

F1@K 是一个同时考虑拟合率（精确度）和重复率（召回率）的指标。其具体定义如下

一致率 Prec(y)：输出 y 中 "正确信息要素 "的百分比
复制率 RK(y)：输出 y 中 "正确信息元素 "数量的最小值 S(y) 除以用户预期偏好的输出句子长度（正确信息元素数量）的数量 K min(S(y)/K,1)

而 F1@K 则将拟合度和可重复性与下式相结合。

如果 S(y)>0:.

F1@K(y)=2∗Prec(y)∗RK(y)Prec(y)+RK(y)

如果 S(y)=0:.

F1@K(y)=0。

换句话说，F1@K 的值介于 0 和 1 之间，越接近 1 表示长文本的事实性越强�

K 是一个超参数，代表用户偏好的输出文本长度（正确信息元素的数量）。假设用户认为最多 K 个 "信息正确元素 "越多越好，但对超过 K 个的 "信息正确元素 "则漠不关心。

例如，如果 K=64，用户认为 64 以内的 "正确信息要素 "越多越好，但对第 65 条及以后的信息则漠不关心。

K 值需要根据用户的偏好来设置。

这样不仅可以评估信息是否符合事实，还可以评估信息是否包含足够的信息量。

事实上，本文使用 F1@K 对 13 个 LLM 进行了基准测试，并比较了这些模型在长句中的实际表现。

使用该数据集和评估指标及方法对 LLM 性能进行比较。

实验细节

LongFact 对 13 个 LLM（Gemini、GPT、Claude 和 PaLM-2 系列）进行了基准测试，以研究LLM 中"模型大小 "与 "长文本事实性 "之间的关系。

具体来说，每个模型都会针对从 LongFact 中随机抽取的 250 个问题生成输出结果，并使用 SAFE 进行评估。

然后，他们对 F1@K（K=64 和 K=178）的性能进行了量化和比较。

结果

实验结果表明，模型越大，越长的陈述越符合事实。

例如，GPT-4-Turbo 的事实性高于 GPT-4，GPT-4 的事实性高于 GPT-3.5-Turbo。我们还可以看到，Gemini-Ultra 的事实性高于 Gemini-Pro，PaLM-2-L-IT-RLHF 的事实性高于 PaLM-2-L-IT。

此外，无论 K 值如何，三个最符合事实的模型是 GPT-4-Turbo、Gemini-Ultra 和 PaLM-2-L-IT-RLHF。

期望这项研究将成为未来法律硕士发展的基础

本文介绍了谷歌 DeepMind 关于 "正确评估长篇法律硕士论文中信息的事实性和准确性的方法 "的研究。本研究提出了 LongFact、自动评估方法 SAFE 和 F1@K 指标，用于评估长句中 LLM 的事实性。这些将有助于澄清长篇文本中大规模语言模型的事实性现状，并为今后的研究提供基础。

本研究的局限性如下：

LongFact 和 SAFE 依赖于 LLM，因此直接受到所用 LLM 功能的影响
SAFE 依靠谷歌搜索，可能无法正确评估某些事实
至于 SAFE 的性能是否与 "人类专家级评估员 "相当或更好，尚未进行测试。

因此，他们计划今后开展有关学习、微调和使用外部工具的研究，以提高较长法律硕士课程的事实性。他还表示，SAFE "依赖语言模型 "的改进以及根据 LLM 内部知识评估较长文本中事实准确性的方法的开发也在计划阶段。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/41159.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

vue2+element-ui新增编辑表格+删除行

vue2+element-ui新增编辑表格+删除行

实现效果： 代码实现 ： <el-table :data"dataForm.updateData"border:header-cell-style"{text-align:center}":cell-style"{text-align:center}"><el-table-column label"选项字段"align"center&…

阅读更多...

Linux 内核 GPIO 用户空间接口

Linux 内核 GPIO 用户空间接口

文章目录 Linux 内核 GPIO 接口旧版本方式：sysfs 接口新版本方式：chardev 接口 gpiod 库及其命令行gpiod 库的命令行gpiod 库函数的应用 GPIO（General Purpose Input/Output，通用输入/输出接口），是微控制器…

阅读更多...

MAX()和ROW_NUMBER()函数的对比

MAX()和ROW_NUMBER()函数的对比

SQL 查询中，使用 MAX() 函数和使用窗口函数 ROW_NUMBER() 都可以实现获取每个分组中某个列的最大值，但它们的实现方式和性能表现有所不同。以下是两者的区别和性能对比：使用 MAX() 函数 SELECTMAX(d.times) FROMv_y d WHEREd.id = a.idAND d.name = a.nameAND d.age = a.…

阅读更多...

交换机需要多大 buffer(续:更一般的原理)

交换机需要多大 buffer(续:更一般的原理)

前面用 aimd 系统分析了交换机 buffer 需求量随流数量增加而减少，今天从更一般的角度继续分析这事。将交换机建模为一个 m/m/1 排队系统，多流场景下它就会变成一个 m/g/1 排队系统，而这事比前面的 aimd 系统分析更容易推导。 m/m/1 系统中…

阅读更多...

哪里还可以申请免费一年期的SSL证书？

哪里还可以申请免费一年期的SSL证书？

目前，要申请免费一年期的SSL证书，选项较为有限，因为多数供应商已转向提供短期的免费证书，通常有效期为90天。不过，有一个例外是JoySSL，它仍然提供一年期的免费SSL证书，但是只针对教育版和政务版…

阅读更多...

halcon学习

halcon学习

halcon列程详细介绍-V1.3 从文件夹中遍历图片（用到的算子及实例） 1）list_files(::Directory,Options:Files) 功能：列出目录中的所有文件参数列表：第1个参数Directory为输入变量，需要列出的目录名字，即输入目录地址；第2个参数Options为输入变量，默认值为files，建…

阅读更多...

html三级菜单

html三级菜单

示例 <!DOCTYPE html> <html lang"en"> <head> <meta charset"UTF-8"> <meta name"viewport" content"widthdevice-width, initial-scale1.0"> <title>Menu Example</title> <link re…

阅读更多...

mybatispuls 分页插件的基本原理是什么？

mybatispuls 分页插件的基本原理是什么？

MyBatis-Plus 是一个基于 MyBatis 的增强框架，它提供了许多额外的功能，其中分页插件是一个常用的功能。分页插件的基本原理是拦截 SQL 语句，在执行查询之前对 SQL 进行修改，以实现分页的功能。以下是 MyBatis-Plus 分页插件的基本原理及其工作机制： 1. 基本原理分页插件…

阅读更多...

LED显示屏跟COB显示屏有哪些不同？

LED显示屏跟COB显示屏有哪些不同？

COB显示屏跟LED显示屏的主要区别在于产品的显示效果、封装技术、耐用性、防护力、维护以及制造成本方面的不同，这里所说的LED显示屏主要指的是使用SMD封装的LED显示屏，今天跟随COB显示屏厂家中品瑞科技一起来详细看看具体分析： 一、封装技术 …

阅读更多...

品牌推广的深层逻辑：自我提升与市场认同的和谐共生

品牌推广的深层逻辑：自我提升与市场认同的和谐共生

品牌推广的深层逻辑：自我提升与市场认同的和谐共生著名飞行员查尔斯林德伯格(Charles Lindbergh) 曾写道:“改善生活方式比传播生活方式更重要。如果我们自己的生活方式使别人感到满意，那么它将自动蔓延。如果不是这样，那么任何武力都不可能…

阅读更多...

如何在 Odoo 16 中继承和更新现有邮件模板

如何在 Odoo 16 中继承和更新现有邮件模板

在本文中，让我们看看如何在 Odoo 16 中继承和编辑现有邮件模板。我们必须这样做才能对现有模板的内容进行任何调整或更新。让我们考虑一个在会计模块中更新邮件模板的示例。单击“account.move”模型中的“发送并打印”按钮后，将打开上述向导。在这里，我们将进行更改。从…

阅读更多...

8人团队历时半年打造开源版GPT-4o，零延迟演示引爆全网！人人可免费使用！

8人团队历时半年打造开源版GPT-4o，零延迟演示引爆全网！人人可免费使用！

目录 01 Moshi 02 背后技术揭秘 GPT-4o可能要等到今年秋季才会公开。然而，由法国8人团队开发的原生多模态Moshi，已经达到了接近GPT-4o的水平，现场演示几乎没有延迟，吸引了大量AI专家的关注。令人惊讶的是，开源版的…

阅读更多...

Python酷库之旅-第三方库Pandas(003)

Python酷库之旅-第三方库Pandas(003)

目录一、用法精讲 4、pandas.read_csv函数 4-1、语法 4-2、参数 4-3、功能 4-4、返回值 4-5、说明 4-6、用法 4-6-1、创建csv文件 4-6-2、代码示例 4-6-3、结果输出二、推荐阅读 1、Python筑基之旅 2、Python函数之旅 3、Python算法之旅 4、Python魔法之旅 …

阅读更多...

T100-XG查询报表的开发

T100-XG查询报表的开发

制作XG报表 1、注册程序 azzi900 首先现将程序注册一下，在内部构建基础代码档。 2、注册作业 azzi910 也是直接新增一个，作业跟程序绑定一下。 3、T100签出规格程序这个时候应该是没签出的，首先将规格迁出。 4、T100画面产生器规格迁出之后，这个时候还需要生成一个画…

阅读更多...

springcloud-gateway 网关组件中文文档

springcloud-gateway 网关组件中文文档

Spring Cloud网关 Greenwich SR5 该项目提供了一个基于Spring生态系统的API网关，其中包括：Spring 5，Spring Boot 2和项目Reactor。Spring Cloud网关的目的是提供一种简单而有效的方法来路由到API，并向它们提供跨领域的关注&#x…

阅读更多...

Java中的数据脱敏与隐私保护技术

Java中的数据脱敏与隐私保护技术

Java中的数据脱敏与隐私保护技术大家好，我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编，也是冬天不穿秋裤，天冷也要风度的程序猿！ 随着信息化进程的加深，数据安全和隐私保护越来越受到关注。数据脱…

阅读更多...

Python文件读入操作

Python文件读入操作

本套课在线学习视频（网盘地址，保存到网盘即可免费观看）： https://pan.quark.cn/s/e2ba7867f034 Python编程中，文件操作是一项基础且重要的技能。本文将详细介绍如何使用Python进行文件的打开、读取、写入和关…

阅读更多...

配置基于不同IP地址的虚拟主机

配置基于不同IP地址的虚拟主机

定义配置文件vhost.conf <directory /www> allowoverride none require all granted </directory> <virtualhost 192.168.209.136:80> documentroot /www servername 192.168.209.136 </virtualhost><virtualhost 192.168.209.138:80> document…

阅读更多...

Restore Equipment

Restore Equipment

Restore Equipment 魔兽世界 - 盗号申请 - 恢复装备流程魔兽和网易真的不行啊 1）这个装备本来就是兑换的竟然可以卖NPC 2）针对这个情况竟然无法挽回 3）设计理念真的不得不吐槽一下 4）策划真的不咋样，要是有机会我要自…

阅读更多...

【C++】解决 C++ 语言报错：Stack Overflow

【C++】解决 C++ 语言报错：Stack Overflow

文章目录引言栈溢出（Stack Overflow）是 C 编程中常见且严重的错误之一。栈溢出通常发生在程序递归调用过深或分配过大的局部变量时，导致栈空间耗尽。栈溢出不仅会导致程序崩溃，还可能引发不可预测的行为。本文将深入探讨栈溢出…

阅读更多...

最新文章