Evaluating Open-Domain Question Answering in the Era of Large Language Models

本文是LLM系列文章,针对《Evaluating Open-Domain Question Answering in the Era of Large Language Models》的翻译。

大语言模型时代的开放域问答评价

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 开放域QA评估
  • 4 评估开放域QA模型的策略
  • 5 正确答案的语言分析
  • 6 CuratedTREC上的正则表达式匹配
  • 7 结论

摘要

词汇匹配仍然是开放域问答(QA)事实上的评价方法。不幸的是,当一个可信的候选答案没有出现在黄金答案列表中,词汇匹配就会完全失败,随着我们从抽取模型转向生成模型,这种情况越来越多。最近大型语言模型(llm)在QA方面的成功加剧了词汇匹配失败,因为候选答案变得更长,从而使与黄金答案的匹配更具挑战性。没有准确的评估,开放领域QA的真正进展仍然是未知的。在本文中,我们通过在NQ-OPEN(一个流行的基准)的子集上手动评估它们的答案,对各种开放域QA模型(包括llm)进行了彻底的分析。我们的评估显示,虽然所有模型的真实性能都被严重低估了,但InstructGPT(零样本)LLM的性能提高了近60%,使其与现有的顶级模型相当,而InstructGPT(小样本)模型实际上在NQ-OPEN上达到了新的水平。我们还发现,超过50%的词汇匹配失败归因于语义等价的答案。我们进一步证明了regex匹配排序QA模型与人类判断一致,尽管仍然遭受不必要的严格。最后,我们证明了在某些情况下,自动评估模型是词汇匹配的合理替代品,但对于llm生成的长格式答案则不是。自动模型很难检测到LLM答案中的幻觉,因此无法评估LLM。在这个时候,似乎没有什么可以代替人的评价。

1 引言

2 相关工作

3 开放域QA评估

4 评估开放域QA模型的策略

5 正确答案的语言分析

6 CuratedTREC上的正则表达式匹配

7 结论

尽管在开放领域的QA中,词汇匹配作为一种评估指标是简单而普遍的,但它是不必要的僵化,因为合理的候选答案可能不会出现在黄金答案列表中。这个缺陷早已为人所知,但规避它的努力大多是手工的。在本文中,我们报告了一个系统的词汇匹配研究,通过人工判断几个著名的开放域QA模型生成的答案。我们发现llm在NQ-OPEN上达到了最先进的水平。模型的准确性被严重低估,大多数EM失败案例源于答案的语法变化。此外,零提示方法可以作为人类评估的合理替代品,尽管它不能检测长格式答案中的不可归因性。我们在本文中的见解和分析将有望为开放领域QA中可靠的评估技术的发展奠定基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/107734.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Kotlin笔记(一):Lambda,非空判断,函数默认参数

1. Lambda表达式 Lambda就是一小段可以作为参数传递的代码,在kotlin中的标准形式为: {参数名1: 参数类型, 参数名2: 参数类型 -> 函数体}标准形式使用如下: val list listOf("Apple", "Banana", "Orange", "Pear", "Grape&…

Android Studio SDK manager加载packages不全

打开Android Studio里的SDK manager,发现除了已安装的,其他的都不显示。 解决方法: 设置代理: 方便复制> http://mirrors.neusoft.edu.cn/ 重启Android Studio

【Java学习之道】TCPIP套接字编程实例

引言 网络编程是Java学习中不可或缺的一部分,而TCP/IP套接字编程又是网络编程的基础。那么,初学者如何才能快速掌握TCP/IP套接字编程呢?今天我们就来通过一个简单的实例,为你揭示TCP/IP套接字编程的奥秘! 一、什么是…

Sql Server 数据库中的所有已定义的唯一约束 (列名称 合并过了)

查询Sql Server Database中的唯一约束 with UniqueBasic as (SELECTtab.name AS TableName, -- 表名称idx.name AS UniqueName, -- 唯一约束的名称col.name AS UniqueFieldName -- 唯一约束的表字段FROMsys.indexes idxJOIN sys.index_columns idxColON (idx.object_id idxCo…

PyTorch 深度学习之循环神经网络(基础篇)Basic RNN(十一)

0.Revision: DNN dense 重义层 全连接 RNN处理带有序列的数据 1. What is RNNs? linear layer 1.1 What is RNN? tanh (-1, 1) 1.2 RNN Cell in PyTorch 1.3 How to use RNNCell *先把维度搞清楚 多了一个序列的维度 2. How to use RNN 2.1 How to use RNN - numLayers…

华为OD机考算法题:服务器广播

题目部分 题目服务器广播难度难题目说明服务器连接方式包括直接相连,间接连接。A 和 B 直接连接,B 和 C 直接连接,则 A 和 C 间接连接。直接连接和间接连接都可以发送广播。 给出一个 N * N 数组,代表 N 个服务器,mat…

PC电脑 VMware安装的linux CentOs7如何扩容磁盘?

一、VM中进行扩容设置 必须要关闭当前CentOS,不然扩展按钮是灰色的。 输入值必须大于当前磁盘容量。然后点击扩展,等待扩展完成会提示一个弹框,点击确定,继续确定。 二、操作CentOS扩容——磁盘分区 第一步设置完成。那就启动 …

docker-compose部署elk(8.9.0)并开启ssl认证

docker部署elk并开启ssl认证 docker-compose部署elk部署所需yml文件 —— docker-compose-elk.yml部署配置elasticsearch和kibana并开启ssl配置基础数据认证配置elasticsearch和kibana开启https访问 配置logstash创建springboot项目进行测试kibana创建视图,查询日志…

微信小程序-3

一、交互 API - - - 界面 - - - 交互 功能&#xff1a;提示 是否删除 1.wx.showToast 显示消息提示框 <button type"primary" bindtapclickBtn>按钮</button> <input style"margin: 20rpx;height: 60rpx;background: gainsboro;" type&…

Docker逃逸---SYS_PTRACE浅析

一、产生原因 用户授予了容器SYS_PTRACE权限&#xff0c;并且与宿主机共享一个进程命名空间(--pidhost)&#xff0c;使得容器内可以查看到宿主机的进程&#xff0c;攻击者可以利用进程注入&#xff0c;反弹shell&#xff0c;从而实现逃逸 二、利用条件 1、容器有SYS_PTRACE权…

23基于MATLAB的小波降噪,默认阈值消噪,强制消噪,给定软阈值消噪方法,数据直接替换后就可以跑。

基于MATLAB的小波降噪&#xff0c;默认阈值消噪&#xff0c;强制消噪&#xff0c;给定软阈值消噪方法&#xff0c;数据直接替换后就可以跑。 https://www.xiaohongshu.com/explore/652d57c600000

elasticsearch配置

Elasticsearch version: 5.1.1 Windows Java安装 版本&#xff1a;jdk8 Java Archive | Oracle 中国 安装elasticsearch-rtf Elasticsearch-RTF是针对中文的一个发行版&#xff0c;即使用最新稳定的elasticsearch版本&#xff0c;并且帮你下载测试好对应的插件&#xff0c;…

前端架构思考,Vue or React?领域设计、文件结构、数据管理、主题替换

从 Vue 和 React 看问题 Vue 的优势 内置的 vite 构建工具&#xff0c;减少构建时间&#xff0c;提高开发效率&#xff0c;在大工程上特别明显 结构、样式、功能分开的设计&#xff0c;再通过 setup 做 crud 的分隔&#xff0c;整个页面维度的逻辑会特别清晰 在路由和数据管…

ppt怎么压缩到10m以内?分享ppt缩小方法

在日常工作中&#xff0c;我们常常需要制作和分享PowerPoint演示文稿&#xff0c;然而&#xff0c;有时候文稿中的图片、视频等元素会导致文件过大&#xff0c;无法在电子邮件或其他平台上顺利传输。为了将PPT文件压缩到10M以内&#xff0c;我们可以使用一些专门的文件压缩工具…

性能超越 Clickhouse | 物联网场景中的毫秒级查询案例

1 物联网应用场景简介 物联网&#xff08;Internet of Things&#xff0c;简称 IoT&#xff09;是指通过各种信息传感、通信和 IT 技术来实时连接、采集、监管海量的传感设备&#xff0c;从而实现对现实世界的精确感知和快速响应&#xff0c;继而实现自动化、智能化管理。在查…

Npm——yalc本地库调试工具

全局安装 npm i -g yalc本地库发布 yalc publish项目中安装 yalc add 库名本地库更新后推送 yalc push项目中删除库 yalc remove --all

Unity_热更方案

热更是指在游戏已经发布和运行后&#xff0c;仍然能够更新游戏内容、修复错误或添加新功能 具体的来说有几种方法可以实现&#xff1a; 1&#xff1a;UnityWebRequest 和 AssetBundle 这种方法比较基础&#xff0c;但对于一些小型项目或原型来说&#xff0c;是一种有效的热更…

2-k8s-控制器介绍

文章目录 一、控制器类型二、Deployment控制器三、SatefulSet控制器四、Daemonset控制器五、Job控制器六、CronJob 控制器 一、控制器类型 Deployment&#xff1a;适合无状态的服务部署StatefullSet&#xff1a;适合有状态的服务部署DaemonSet&#xff1a;一次部署&#xff0c…

时间复杂度为 O(n^2) 的排序算法

大家好&#xff0c;我是 方圆。对于小规模数据&#xff0c;我们可以选用时间复杂度为 O(n2) 的排序算法&#xff0c;因为时间复杂度并不代表实际代码的执行时间&#xff0c;而且它也省去了低阶、系数和常数&#xff0c;仅代表的增长趋势&#xff0c;所以在小规模数据情况下&…

python:使用卷积神经网络(CNN)进行回归预测

作者:CSDN @ _养乐多_ 本文详细记录了从Excel或者csv中读取用于训练卷积神经网络(CNN)模型的数据,包括多个自变量和1个因变量数据,以供卷积神经网络模型的训练。随后,我们将测试数据集应用于该CNN模型,进行回归预测和分析。 该代码进一步修改可用于遥感影像回归模型. …