[论文笔记]DAPR: A Benchmark on Document-Aware Passage Retrieval

引言

今天带来论文DAPR: A Benchmark on Document-Aware Passage Retrieval的笔记。

本文提出了一个基准:文档感知段落检索(Document-Aware Passage Retrieval,DAPR)以及介绍了一些上下文段落表示的方法。

为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。

1. 总体介绍

image-20241006153851118

图 1:DAPR 的示例实例。为了找到与查询 相关的段落,检索器需要利用文档上下文, 在本例中这意味着名词"地点"的共指解析。

我们提出了文档感知段落检索(DAPR)任务,其中检索需要考虑关联的文档上下文以返回相关段落。一个 例子如图1所示。在这种情况下,用户询问在特定场地演奏过的音乐家。然而, 相关段落没有提及场地名称,而仅提及名词引用,检索器需要理解这些用于查找正确段落的文档上下文。

我们对SOTA检索器进行错误分析,发现主要错误是由于缺少文档上下文,其中正确的段落缺少共指解析、底层主题的信息。

在实验中,我们通过两种方法向SOTA检索器引入文档上下文来测试扩展SOTA检索器的方法:

  1. 使用BM25混合检索;
  2. 带有上下文的段落表示,它基于文档上下文来增强段落表示;

2. 相关工作

3. DAPR任务和基准

DAPR任务要求系统根据有关(长)文档检索相关段落并对其进行排名。

给定段落集合 C = { p i } i = 1 N C=\{p_i\}_{i=1}^N C={pi}i=1N和它们关联的文档 D = { d i } i = 1 N D=\{d_i\}_{i=1}^N D={di}i=1N,对于查询 q ∈ Q q \in Q qQ,检索系统 s : Q × C × D → R s: Q \times C \times D \rightarrow \R s:Q×C×DR需要返回前 K K K个段落 R = { p 1 , p 2 , ⋯ , p K } R=\{p_1,p_2,\cdots,p_K\} R={p1,p2,,pK}

3.1 NQ-Hard:NaturalQuestions 中的疑难案例

对 SoTA 段 落检索器(DRAGON+、SPLADEv2 和 ColBERTv2)和 BM25 的自然问题进行了错误分析。发现53.5%的错误案例是由于没有检索到相关段落上下文造成的。

4. 实验

引入文档上下文

BM25混合检索

使用BM25检索整个文档,使用神经网络检索器检索段落。

排名融合 融合了来自BM25检索器和神经检索器的相关性分数,计算为:
s convex ( q , p , d ) = α s ^ BM25 ( q , p ) + ( 1 − α ) s ^ neural ( q , d ) s_\text{convex}(q,p,d) = \alpha \hat s_\text{BM25}(q,p) + (1-\alpha) \hat s_\text{neural}(q,d) sconvex(q,p,d)=αs^BM25(q,p)+(1α)s^neural(q,d)
其中 α ∈ [ 0 , 1 ] \alpha \in [0,1] α[0,1]是融合权重; s ^ \hat s s^表示归一化的相关性得分,计算为:
s ^ ( q , c ) = s ( q , c ) − m q M q − m q \hat s(q,c) = \frac{s(q,c) - m_q }{M_q - m_q} s^(q,c)=Mqmqs(q,c)mq
其中 c c c表示候选段落/文档; m q m_q mq M q M_q Mq分别是最小和最大值。

层次检索 通过两个步骤: (1)文档检索和(2)检索到的文档中的段落检索。

上下文化的段落表示

这里的段落可以认为是文本块。

前置标题 简单增加标题到同一文档每个段落的开头。使用空格来分隔标题文本和原始段落文本。标题通常准确地显示了文档的主体,但可能此类信息并不总是可用。

前置文档关键短语 通过添加从文档中提取的关键短语来绕过标题可用性问题。使用TopicRank算法来提取每个文档的前10个关键短语,然后通过分号连接起来。最后用空格分隔符添加到段落文本中。

共指解析 通过添加共指信息来注释段落。将整个文档输入到共指消解模型中以获得提及先行词映射。对于每个提及,其预测的先行词显示在文档中最早的位置中,并用括号附加到它后面。例如,图1中的段落将被注释为"在场地(TheHalfMoon)表演或录制的艺术家…"。我们只考虑跨段共指。

总结

⭐ 作者提出了可以直接将长文本的全局文本信息拼接到切分后的文本块前面。全局文本信息有(1) 文档的标题 (2) 文档的关键短语,使用TopicRank算法抽取 (3) 共指解析,通过跨段共指解析消解来处理文本块中的代词。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/56202.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

麒麟信安CentOS安全加固案例获评中国信通院第三届“鼎新杯”数字化转型应用奖

“鼎新杯”数字化转型应用大赛,由中国通信标准化协会主办、中国信息通信研究院承办,以落实国家“十四五”规划关于“加快数字化发展,建设数字中国”的总体要求为目标,意在打造一批具有产业引领与推广应用效应的企业数字化转型应用…

conda打包

tar 是一个在 Unix 和类 Unix 系统中常用的命令行工具,用于打包多个文件和目录到一个归档文件(通常称为 tarball),以及从这些归档文件中解包文件和目录。 以下是使用 tar 进行打包和解包的基本用法: 打包(…

OCR+PDF解析配套前端工具开源详解!

目录 一、项目简介 TextIn为相关领域的前端开发提供了优秀的范本。 目前项目已在Github上开源! 二、性能特色 三、安装使用 安装依赖启动项目脚本命令项目结构 四、效果展示 面对日常生活和工作中常见的OCR识别、PDF解析、翻译、校对等场景,配套的…

【C++进阶】set的使用

1. 序列式容器和关联式容器 前面,我们已经接触过STL中的部分容器如:string、vector、list、deque、array、forward_list等,这些容器统称为序列式容器,因为逻辑结构为线性序列的数据结构,两个位置存储的值之间⼀般没有紧…

dvwa:暴力破解、命令注入、csrf全难度详解

暴力破解 easy模式 hydra -L /usr/share/wordlists/SecLists-master/Usernames/top-usernames-shortlist.txt -P /usr/share/wordlists/SecLists-master/Passwords/500-worst-passwords.txt 192.168.72.1 http-get-form "/dvwa/vulnerabilities/brute/:username^USER^&…

14.C++程序中的结构体

最近工作比较忙,好几个项目以及其它的杂事要处理,就不太想写什么东西了。 结构体是 C 中的一种数据结构,用于将多个不同类型的数据组合在一起,形成一个新的数据类型。结构体可以包含任意类型的成员变量,也可以包含函数…

uni-app 开发的应用快速构建成鸿蒙原生应用

uni-app 是一个使用 Vue.js 开发所有前端应用的框架,它支持编译到 iOS、Android、小程序等多个平台。对于 HarmonyOS(鸿蒙系统),uni-app 提供了特定的支持,允许开发者构建鸿蒙原生应用。 一、uni-app 对 HarmonyOS 的支…

【C语言教程】【常用类库】(三)输入输出库 - <stdio.h>

3. 输入输出库 - <stdio.h> <stdio.h> 是C语言中进行文件和标准输入输出操作的核心库。通过对该库函数和操作的应用&#xff0c;程序可以和用户进行交互、读写文件并处理各种形式的数据流。 3.1. 基础输入输出 3.1.1. printf 和 scanf printf: 主要用于在标准输…

UE5 C++ 通过绑定编辑器事件实现控制柄顶点编辑

开发中经常会遇到编辑器环境中制作工具拖拽控制柄编辑内容的需求&#xff0c;此时可以通过Editor事件拿到对应回调&#xff0c;进行相应更新&#xff1a; 1.创建Mesh编辑Actor类 创建一个Mesh编辑Actor类&#xff0c;提供Mesh顶点编辑的相关逻辑。 .h: #pragma once#inclu…

Mac上强大的菜单栏管理工具

想要Mac用的好&#xff0c;各种工具少不了&#xff0c;一款好用的软件对于提高使用效率和使用舒适度来说非常必要&#xff0c;iBar-强大的菜单栏图标管理工具 随着 Mac 运行的软件增加&#xff0c;状态栏中的图标也越来越多&#xff0c;不仅看得眼花缭乱&#xff0c;而且刘海屏…

KEFK 架构实时数据处理

一、概述 在大数据和实时数据分析的领域&#xff0c;构建高效、低延迟的数据处理架构至关重要。KEFK 架构是应对这些挑战的一种现代化技术栈&#xff0c;结合了分布式消息系统、实时流处理引擎、搜索引擎和数据可视化工具。本文将从 KEFK 架构的概念、优势及其与传统数据处理架…

开发一个UniApp需要多长时间

开发一个UniApp所需的时间因项目的规模、复杂度、开发团队的经验水平以及开发过程中的需求变更等多种因素而异。因此&#xff0c;很难给出一个确切的时间范围。然而&#xff0c;我们可以从以下几个方面来大致估算开发时间&#xff1a; 项目规划与需求分析&#xff1a; 在项目开…

【网络安全】账户安全随笔

未经许可,不得转载。 作者:Enoch 原文出处:https://mp.weixin.qq.com/s/oKBpZ0F6Kl5NNmHSYCYIPw 文章目录 账户类型资金划转问题幂等ID使用错误多接口并发问题精度问题其他划转问题特殊资金盗取问题科学计数法问题账户类型 在互联网金融和电商企业中,账户安全直接关系到用…

Fetch 与 Axios:JavaScript HTTP 请求库的详细比较

&#x1f49d;&#x1f49d;&#x1f49d;欢迎莅临我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐&#xff1a;「storm…

基于SpringBoot民宿预订系统小程序【附源码】

效果如下&#xff1a; 管理员登录界面 管理员功能界面 用户管理界面 房东管理界面 小程序首页界面 民宿房间界面 功能界面 研究背景 随着旅游业的蓬勃发展和人们对旅行体验的不断追求&#xff0c;民宿作为一种独特的住宿方式&#xff0c;因其个性化、温馨及富含地方特色的服务…

机器学习中的模型设计与训练流程详解

目录 前言1. 模型设计1.1 数据特性分析1.2 计算资源限制1.3 应用场景需求 2. 模型训练2.1 训练集与验证集的划分2.2 损失函数的选择2.3 模型参数更新 3. 优化方法3.1 梯度下降法3.2 正则化方法 4. 模型测试4.1 性能评估指标4.2 模型的泛化能力 5. 模型选择5.1 数据规模与模型复…

matlab不小心删除怎么撤回

预设项——>删除文件——>移动至临时文件夹 tem临时文件夹下

鸿蒙开发之ArkUI 界面篇 三十五 容器组件Tabs 切换高亮

好多app都有切换点中的时候高亮效果&#xff0c;如下图所示&#xff1a; 改变的是什么呢&#xff1f;是字体的颜色、背景图&#xff0c;不是切换到的界面&#xff0c;又恢复到默认的图片和字体颜色&#xff0c;而鸿蒙中更新界面的值需要使用State修饰&#xff0c;Tabs提供了onC…

Linux环境通过APT 仓库安装版PostgreSQL 数据库实战

Linux环境通过APT 仓库安装版PostgreSQL 数据库是运维人员常见的需求之一&#xff0c;今天我们一步一步演示一下&#xff1a; 1、添加 PostgreSQL APT 仓库 确保你的系统更新&#xff0c;然后添加 PostgreSQL 的官方 APT 仓库。 sudo apt update sudo apt install -y wget w…

【动手学深度学习】6.4 多输入多输出通道

彩色图像具有标准的RBG通道来代表红绿蓝&#xff0c;但是到目前位置我们仅展示了单个输入和单个通道的简化例子。这使得我们可以将输入&#xff0c;卷积核和输出看作二维张量而当我们添加通道时&#xff0c;输入和隐藏表示都变成了三维张量。例如每个RGB输入图像都具有 3 h …