利用段落检索和生成模型进行开放域问答12.2

利用段落检索和生成模型进行开放域问答

  • 摘要
  • 引言
  • 2 相关工作
  • 3 方法

摘要

事实证明,开放域问答的生成模型具有竞争力,无需借助外部知识。虽然很有希望,但这种方法需要使用具有数十亿个参数的模型,而这些模型的训练和查询成本很高。在本文中,我们研究了这些模型可以从检索可能包含证据的文本段落中获益多少。我们在 Natural Questions 和 TriviaQA 开放基准测试中获得了最先进的结果。有趣的是,我们观察到当增加检索的段落数量时,该方法的性能显着提高。这证明序列到序列模型提供了一个灵活的框架,可以有效地聚合和组合来自多个段落的证据。

引言

最近,一些工作表明,可以从经过大量数据训练的大规模语言模型中提取事实信息。基于这一观察和自然语言处理模型预训练的进展。2020年引入了开放域问答的生成模型。在不依赖外部知识的情况下,该方法在多个基准测试中获得了有竞争力的结果。然而,它需要包含数十亿个参数的模型,因为所有信息都需要存储在权重中。这使得模型的查询和训练成本高昂。在本文中,我们研究了这种方法可以从访问外部知识源(例如维基百科)中获益多少。

基于检索的方法之前曾在使用提取模型的开放域问答的背景下被考虑过。在这种情况下,系统首先检索支持文档,然后从这些文档中提取答案。我们考虑了不同的检索技术,要么使用基于 TF/IDF 的稀疏表示,要么使用密集嵌入。提取答案的模型通常基于上下文化的单词表示,例如 ELMo 或 BERT,并预测一个范围作为答案。使用提取模型时,聚合和组合来自多个段落的证据并不简单,并且已经提出了多种技术来解决这一限制。

在本文中,我们基于开放域问答的生成建模和检索方面令人兴奋的发展,探索了一种两全其美的简单方法。该方法分两个步骤进行,首先使用稀疏或密集检索支持段落交涉。然后,序列到序列模型生成答案,除了问题之外,还将检索到的段落作为输入。虽然概念上很简单,但该方法在 TriviaQA 和 NaturalQuestions 基准上设置了新的最先进结果。特别是,我们表明,当检索到的段落数量增加时,我们的方法的性能显着提高。我们认为,这证明生成模型比提取模型更擅长结合多个段落的证据。

2 相关工作

开放领域问答 是回答一般领域问题的任务,其中证据不作为系统的输入给出。虽然这是自然语言处理中的一个长期存在的问题,但随着 Chen 等人的工作,这项任务最近重新引起了人们的兴趣,在该版本的问题中,学习系统可以以与答案相对应的跨度的形式进行强有力的监督。陈等人(2017)提出通过首先从维基百科检索支持文档来解决该问题,然后再从检索到的文档中提取答案。人们提出了不同的方法来解决系统没有给出黄金跨度但只给出正确答案的情况。 Clark 和 Gardner(2018)提出在与答案相对应的所有范围内使用全局归一化,后来应用于基于 BERT 的模型。敏等人 (2019) 引入了一种基于硬期望最大化的方法来解决此设置中的噪声监督问题。王等人 (2018) 描述了一种使用置信度和覆盖率得分来汇总不同段落的答案的技术。

段落检索 是开放域问答的重要一步,也是改进 QA 系统的一个活跃的研究领域。最初,基于 TF/IDF 的稀疏表示用于检索支持文档。李等人引入了一种基于 BiLSTM 的监督学习方法来对段落进行重新排序,而 Wang 等人 (2018) 通过强化学习训练了一个排名系统。改进 QA 系统检索步骤的第二种方法是使用额外信息,例如维基百科或维基数据图。最近,多项研究表明,完全基于密集表示和近似最近邻的检索系统与传统方法具有竞争力。此类模型可以使用问答对形式的弱监督进行训练,或者使用完形填空任务和端到端微调进行预训练。

生成式问答 在之前的工作中主要被考虑用于需要生成答案的数据集。这些数据集的生成方式使得答案与支持文档中的范围不对应,因此需要抽象模型。拉斐尔等人 (2019) 表明,生成模型对于阅读理解任务具有竞争力,例如 SQuAD (Rajpurkar et al., 2016),其中答案是跨度。罗伯茨等人(2020)建议使用大型预训练生成模型,而不使用额外的知识来进行开放域问答。最接近我们的工作,Min 等人(2020)和刘易斯等人 (2020) 引入了用于开放域问答的检索增强生成模型。我们的方法与这些作品的不同之处在于生成模型如何处理检索到的段落。这允许扩展到大量文档,并从大量证据中受益。

3 方法

在本节中,我们将描述我们的开放域问答方法。它分两个步骤进行,首先检索支持段落,然后使用序列到序列模型对其进行处理。

检索
对于支持段落的检索,我们考虑两种方法:BM25(Robertson et al., 1995)和 DPR(Karpukhin et al., 2020)。
在 BM25 中,段落被表示为词袋,排名函数基于术语和逆文档频率。我们使用带有默认参数的 Apache Lucene1 实现,并使用 SpaCy.2 对问题和段落进行标记。
在 DPR 中,段落和问题被表示为密集向量表示,并使用两个 BERT 网络计算。排名函数是查询和段落表示之间的点积。使用 FAISS 库的近似最近邻进行检索。

阅读
我们的开放域 QA 生成模型基于序列到序列网络,在无监督数据上进行预训练,例如 T5 或 BART。该模型将问题以及支持段落作为输入,并生成答案。更准确地说,每个检索到的段落及其标题都与问题连接在一起,并由编码器独立于其他段落进行处理。我们在每段文章的问题、标题和文本之前添加特殊标记 Question:,title: 和 context: 。最后,解码器对所有检索到的段落的结果表示的串联执行。因此,该模型仅在解码器中执行证据融合,我们将其称为解码器中的融合。

通过在编码器中独立处理通道,但在解码器中联合处理通道,该方法不同于 Min 等人(2020)和刘易斯等人(2020)。在编码器中独立处理段落可以扩展到大量上下文,因为它一次仅对一个上下文执行自关注。这意味着模型的计算时间随着通道数线性增长,而不是二次增长。另一方面,在解码器中联合处理段落可以更好地聚合来自多个段落的证据。
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/192067.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在linux服上部署vue+springboot+nginx项目

一、环境准备 1、安装winscp便于可视化操作linux:winscp安装及关联putty使用_putty.exe没有找到_cherishSpring的博客-CSDN博客 2、安装jdk:linux系统安装jdk-CSDN博客 3、安装mysql:Linux7安装mysql数据库以及navicat远程连接mysql-CSDN博…

Fiddler抓包工具之fiddler设置断点和简单的并发测试

断点有两种方式: 1、全局断点 2、局部断点 全局断点 全局断点的特点是:不能针对一个请求,是给所有抓到的请求打断点 全局断点如何设置: 1、快速设置断点:直接点击底部状态栏断点处 ;点击第一下是请求…

【算法专题】二分查找

二分查找 二分查找1. 二分查找2. 在排序数组中查找元素的第一和最后一个位置3. 搜索插入位置4. x 的平方根5. 山脉数组的峰顶索引6. 寻找峰值7. 寻找旋转排序数组中的最小值8. 点名 二分查找 1. 二分查找 题目链接 -> Leetcode -704.二分查找 Leetcode -704.二分查找 题…

【Geoserver】SLD点位样式(PointSymbolizer)设计全通

SLD文件可以控制geoserver的样式管理,这里专门针对点位进行设计,首先点位的设计需要用到这面这个大标签 之前的项目中已经用到了很多关于面的样式管理,这里新学习的是关于点的样式管理 PointSymbolizer 参考资料地址:https://doc…

LeetCode算法题解(动态规划)|LeetCode1143. 最长公共子序列、LeetCode1035. 不相交的线、LeetCode53. 最大子数组和

一、LeetCode1143. 最长公共子序列 题目链接:1143. 最长公共子序列 题目描述: 给定两个字符串 text1 和 text2,返回这两个字符串的最长 公共子序列 的长度。如果不存在 公共子序列 ,返回 0 。 一个字符串的 子序列 是指这样一…

论文编写软件latex安装教程

目录 1.下载安装包2.安装texlive 本人系统为windows,本教程基于windows系统,如果是其它系统请参考对应教程,注意选择对应系统的安装包! 1.下载安装包 有三种集成环境安装包 texlive 是主流的环境,集成了较多的包&…

【数据结构】二叉树---C语言版

二叉树 一、树的概念及结构1.树的概念2.树的相关概念3.树的表示4.树在实际中的应用 二、二叉树的概念及结构1.二叉树的概念2.满二叉树3.完全二叉树4.二叉树的性质5.二叉树的储存结构 三、二叉树的遍历1.前序遍历2.中序遍历3.后序遍历4.层序遍历 四、手撕二叉树(务必…

MySQL 临时数据空间不足导致SQL被killed 的问题与扩展

开头还是介绍一下群,如果感兴趣PolarDB ,MongoDB ,MySQL ,PostgreSQL ,Redis, Oceanbase, Sql Server等有问题,有需求都可以加群群内,可以解决你的问题。加群请联系 liuaustin3 ,(共1730人左右 1 2 3 4 5&#xff0…

Mover Creator--功能简介

Mover Creator是一款AFSIM软件工具,提供方便易用的基于GUI的应用程序,帮助用户创建用于空中运动器的AFSIM输入文件,包括WSF_P6DOF_MOVER和WSF_GUIDED_MOVER。使用自定义定义的基于图形的模型定义,用户可以对飞机、武器和发动机进行…

邮政快递查询,邮政快递单号查询,用表格导出查询好的物流信息

批量查询邮政快递单号的物流信息,并以表格的形式导出查询好的物流信息。 所需工具: 一个【快递批量查询高手】软件 邮政快递单号若干 操作步骤: 步骤1:运行【快递批量查询高手】软件,第一次使用的伙伴记得先注册&am…

linux后端基础---笔记整理(tmux、vim、shell、ssh/scp、git、thrift、docker)

目录 1.Linux常用文件管理命令 2.tmux终端复用器/vim命令式文本编辑器 3.Shell语法 3.1 Shell—版本3.2 新建一个test.sh文件3.3 Shell文件—运行方式3.4 Shell—注释3.5 Shell—变量3.6 Shell—默认变量,文件参数, “$”的用法3.7 Shell—数组3.8 shell—expr命令…

AD7124-4 实测热电偶数据读取,电压精度到稳定到±1uV, 电压波动260nV, 温度精度到±0.01℃

AD7124-4 实测热电偶数据读取,电压精度到稳定到1uV, 电压波动260nV, 温度精度到0.01℃ AD7124_STM32_ADI官网例程使用stm32 和ad7124做温控调试,发现效果还是不错的,至少比ads1256的效果好多啦!Chapter1 AD7124-4 实测热电偶数据读…

Halcon tiff 点云读取以及平面矫正

一、读取tiff 图 dev_close_window () dev_open_window (0, 0, 512, 512, black, WindowHandle)xResolution:0.0025 yResolution:0.0025 zResolution:0.001 read_image (IntputImage, C:/Users/alber/Desktop/2023-08-15_16-38-24-982_/Sta5_002.tif) zoom_image_factor (Intpu…

初创公司的技术 SEO:提示和最佳实践

初创公司总是寻求可以在几乎没有前期资金的情况下进行扩展的增长战略。搜索引擎优化就是这样一种方法。 如果操作得当,SEO可以产生越来越多的目标访问者,而无需额外费用。此外,它可以通过支持其他策略来影响整个营销漏斗。你已经找到了学习初…

Edge 旧版本回退

微软官网 下载策略文件 下载后,解压打开 cad 包,把里面的 Windows\ADMX\ 下 3 个 *.admx 文件解压到 C:\Windows\PolicyDefinitions Windows\ADMX\zh-CN 下 3 个 *.adlm 文件解压到 C:\Windows\PolicyDefinitions\zh-CN Windows 搜索 gpedit&#xff…

XIAO ESP32S3之SenseCraft 模型助手部署

sipeed教程:SenseCraft 模型助手部署 | Seeed Studio Wiki 一、安装ESP-IDF 鉴于我的电脑之前安装过esp-idf v4.3版本,而ESP32-S3需要v4.4及以上版本才支持,所以将esp-idf更新到最新5.1版本。 1、启动mingw32.exe应用 2、进入esp-idf目录 …

重要通知丨 JumpServer 开源堡垒机 V2 社区版即将停止维护

尊敬的 JumpServer 开源堡垒机用户,您好! 根据《关于 JumpServer 开源堡垒机 V2 版本产品生命周期的相关说明》,JumpServer 开源堡垒机 V2 版本(社区版)将于 2023 年 12 月 31 日停止维护支持。 在过去的两年多时间里…

ELK配置记录

1. filebeat.yml配置 启动命令: ./filebeat -e -c filebeat.yml # 输入 filebeat.inputs: - type: logenabled: truepaths:- /soft/log/base.*#跨行日志正则,从有时间的开始,到下一个时间之前结束multiline.pattern: ^\[[0-9]{4}-[0-9]{2}…

使用纯js码2个实用功能banner图标切换和表格制作

“I can accept failure, but I cant acceptnot trying.”—— by Michael Jordan    “我可以接受失败&#xff0c;但我不能接受放弃。” ——迈克尔•乔丹   banner图标切换 js原生&#xff1a;图片地址你们自己设置位置&#xff0c;相对位置或者绝对位置即可 <!DOCTY…

蓝桥杯物联网竞赛_STM32L071_6_RTC显示

作用&#xff1a; RTC在STM32微控制器中通常由一个独立的低功耗晶振和相关的寄存器组成。它可以独立于主处理器运行&#xff0c;即使在系统电源关闭的情况下(需要备用纽扣电池)&#xff0c;也能继续计时和记录日期。注意&#xff1a;RTC是芯片内部的功能&#xff0c;并没有和G…