信息检索(52):From doc2query to docTTTTTquery

From doc2query to docTTTTTquery

  • 摘要


发布时间(2019)


摘要

Nogueira 等人 [7] 使用简单的序列到序列转换器 [9] 进行文档扩展。我们用 T5 [8] 替换转换器,并观察到效率大幅提升。

doc2query [7] 是一种文档扩展形式,其理念是训练一个模型,当给定一个输入文档时,该模型会生成该文档可能回答的问题。然后,这些预测的问题会附加到原始文档中,然后像以前一样对原始文档进行索引。

本研究中的设置遵循 doc2query,但使用 T5 [8] 作为扩展模型。T5 是一个序列到序列模型,它使用与 BERT [3] 类似的预训练目标来预训练其编码器-解码器架构。在这个模型中,所有目标任务都被转换为序列到序列任务。在我们的例子中,我们将段落作为输入,并训练模型来生成问题。我们以 10−4 的恒定学习率训练模型,进行 4k 次迭代,批次为 256,这对应于 MS MARCO 训练集的 2 个时期。我们最多使用 512 个输入标记和 64 个输出标记。在 MS MARCO 数据集中,使用这些长度时,无需截断任何输入或输出。 与 Nogueira 等人 [7] 类似,我们发现 top-k 采样解码器 [4] 比集束搜索产生更有效的查询。我们使用 k = 10。在所有实验中,我们都使用 T5-base,因为我们没有注意到大型模型在检索效果方面有任何改进。由于计算成本较高,我们没有对 T5-3B 和 T5-11B 进行实验。

然后,所有扩展文档都使用 Anserini IR 工具包 [10](v0.6.0 之后)进行索引;扩展查询将附加到原始文档中,但没有特别分隔。为了进行评估,开发/测试问题将针对索引作为“词袋”查询发出,使用 BM25 排名函数和 Anserini 的默认参数。

表 1 还提供了比较点:BM25(Anserini)基线;
doc2query 和基于 BERT 的重新排名(分数高但速度很慢),
均来自 Nogueira 等人 [7];Hofstätter 等人 [5],据我们所知,这是排行榜上最好的非集成、非 BERT 方法,并有一篇相关论文;以及 DeepCT [2],一种最近推出的基于 BERT 的文档扩展方法。

我们还根据 BLEU 值评估了模型生成的查询与真实开发查询的对比情况:docTTTTTquery 得分为 0.21 BLEU,远高于 doc2query 的 0.088 BLEU。 我们将输出质量的巨大差异归因于预训练,而不是模型本身的大小,因为即使是参数数量与 doc2query 模型相似的 T5-small 模型也达到了 0.18 BLEU。

有趣的是,doc2query 和 docTTTTTquery 产生的复制词(67%)和新词(33%)的比例与原始文档相似。对这两个模型的分析都是使用从 top-k 采样解码器中抽取的 10 个样本进行的;计算这些统计数据时不考虑停用词。正如 Nogueira 等人 [7] 所指出的,复制术语具有术语重新加权的效果,而使用新术语进行扩展可以缓解词汇不匹配问题,从而提高召回率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/859582.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

高清录屏软件哪个好用?分享这3款录屏软件

在我们的日常生活和工作中,视频录制是我们经常需要使用到的功能。不仅可以帮助我们录制网课内容方便后期复习,还可以录制视频会议,记录上级指示,甚至可以通过录制一些视频教程或游戏视频上传网络进行分享。 对电脑屏幕进行录制&a…

【GD32F303红枫派使用手册】第二十四节 DHT11温湿度传感器检测实验

24.1 实验内容 通过本实验主要学习以下内容: DHT11操作原理 单总线GPIO模拟操作原理 24.2 实验原理 HT11是一款已校准数字信号输出的温湿度一体化数字传感器。该产品具有品质卓越、超快响应、抗干扰能力强、性价比极高等优点信号,传输距离可达20米以…

Codeforces Round 954 (Div. 3) (A~F)(不会数学)

A - X Axis 暴力枚举一下所有可能 void solve() {int a , b , c;cin >> a >> b >> c;int ans 100;for(int i 0 ; i < 10 ; i ){ans min(ans , abs(i - a) abs(i - b) abs(i - c));} cout << ans << endl; } B - Matrix Stabiliz…

【数据分享】2006-2023《中国贸易外经统计年鉴》

公众号新功能 目前公众号新增以下等功能 1、处理GIS出图、Python制图、区位图、土地利用现状图、土地利用动态度和重心迁移图等等 2、核密度分析、网络od分析、地形分析、空间分析等等 3、地理加权回归、地理探测器、生态环境质量指数、地理加权回归模型影响因素分析、计算…

硬件开发笔记(二十):AD21导入外部下载的元器件原理图库、封装库和3D模型

若该文为原创文章&#xff0c;转载请注明原文出处 本文章博客地址&#xff1a;https://hpzwl.blog.csdn.net/article/details/139707771 长沙红胖子Qt&#xff08;长沙创微智科&#xff09;博文大全&#xff1a;开发技术集合&#xff08;包含Qt实用技术、树莓派、三维、OpenCV…

webpack【实用教程】

基础配置 配置的拆分和合并 通常 webpack 的配置文件会有3个 webpack.common.js 公共配置&#xff08;会被另外两个配置文件导入并合并&#xff09;webpack.dev.js 开发环境的配置webpack.prod.js 生产环境的配置 开发环境的本地服务 在 webpack.dev.js 中配置 devServer:…

使用鸿蒙HarmonyOs NEXT 开发b站的卡片效果 手把手教学

资源准备&#xff1a; 需要4张图片&#xff1a;分别是页面图&#xff0c;播放图标&#xff0c;评论图标&#xff0c;更多图标 1.实现效果显示&#xff1a; 2.教学视频&#xff1a; 使用鸿蒙HarmonyOs NEXT 开发b站卡片_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1…

Huffman树——AcWing 148. 合并果子

目录 Huffman树 定义 运用情况 注意事项 解题思路 AcWing 148. 合并果子 题目描述 运行代码 代码思路 其它代码 代码思路 Huffman树 定义 它是一种最优二叉树。通过构建带权路径长度最小的二叉树&#xff0c;经常用于数据压缩等领域。 运用情况 在数据压缩中&a…

【机器学习】半监督学习可以实现什么功能?

目录 一、什么是机器学习二、半监督学习算法介绍三、半监督学习算法的应用场景四、半监督学习可以实现什么功能&#xff1f; 一、什么是机器学习 机器学习是一种人工智能技术&#xff0c;它使计算机系统能够从数据中学习并做出预测或决策&#xff0c;而无需明确编程。它涉及到…

Java研学-RBAC权限控制(八)

九 登录登出 1 登录作用 判断员工是否有权限访问&#xff0c;首先得知道现在操作的人是谁&#xff0c;所以必须先实现登录功能 2 登录流程 ① 提供登录页面&#xff0c;可输入用户名与密码信息&#xff0c;并添加执行登录的按钮。&#xff08;登录页面不能被拦截&#xff09;…

意识清晰,对答如流,但手脚活动受限 是脊髓损伤?

在医学领域&#xff0c;有一种情况常常令人困惑&#xff1a;患者意识清醒&#xff0c;交流无碍&#xff0c;但手脚的活动却受到限制。这种情况可能源于多种原因&#xff0c;其中之一就是脊髓损伤。本文将对脊髓损伤进行科普&#xff0c;帮助大家更好地理解这一复杂的医学问题。…

Handler、Looper与Message Queue:深入解析Android中的异步消息处理机制

在Android开发中&#xff0c;Handler、Looper和Message Queue是处理异步消息和线程间通信的核心组件。它们共同构成了一个高效且灵活的消息处理机制&#xff0c;使得开发者能够轻松地在不同线程之间传递数据和执行任务。以下将从技术难点、面试官关注点、回答吸引力和代码举例四…

AIGC技术的发展现状与未来趋势探讨

AIGC技术的发展现状与未来趋势探讨 随着人工智能&#xff08;AI&#xff09;技术的迅猛发展&#xff0c;AI生成内容&#xff08;AI-Generated Content&#xff0c;AIGC&#xff09;成为了一项颠覆性的技术&#xff0c;它能够自动生成文本、图像、音频和视频等多种内容。本文将…

示例:推荐一个基于第三方QRCoder.Xaml封装的二维码显示控件

一、目的&#xff1a;基于第三方QRCoder.Xaml封装的二维码控件&#xff0c;为了方便WPF调用 二、效果如下 功能包括&#xff1a;背景色&#xff0c;前景色&#xff0c;中心图片设置和修改大小&#xff0c;二维码设置等 三、环境 VS2022 四、使用方式 1、安装nuget包&#xf…

数据可视化期末总结

期末考试重点&#xff08;世界上最没意义的事情&#xff09; 选择 p8 数据可视化的标准&#xff1a; 实用、完整、真实、艺术、交互&#xff08;性&#xff09; p21 色彩三属性 色相、饱和度、亮度 p23 视觉通道的类型&#xff1a; 记得色调是定性 p39 散点图&#xff08;二维…

【python入门】运算符

文章目录 算术运算符比较运算符赋值运算符逻辑运算符位运算符成员运算符身份运算符优先级 算术运算符 # 加法 print(5 3) # 输出: 8# 减法 print(5 - 3) # 输出: 2# 乘法 print(4 * 3) # 输出: 12# 除法&#xff08;结果为浮点数&#xff09; print(8.0 / 3) # 输出: 2.6…

Kotlin 运行代码片段多种方式

目录 场景描述 一、Scratch files and worksheets in the IDE 1、Scratch files(草稿文件) 特点&#xff1a; Scratch files文件创建步骤&#xff1a; 功能解释&#xff1a; Scratch Buffer笔记文件&#xff1a; 2、Worksheets(工单) 1&#xff09;、创建方式不同。 …

Java中的StringBuffer和StringBuilder类

在Java编程中&#xff0c;StringBuffer和StringBuilder是两个非常重要的类&#xff0c;用于处理可变字符串。StringBuffer和StringBuilder都继承自AbstractStringBuilder&#xff0c;提供了类似的方法来操作字符串。然而&#xff0c;这两者之间存在一个关键区别&#xff1a;Str…

国内有哪些比较优秀的wordpress主题?

WordPress作为全球最受欢迎的开源内容管理系统之一&#xff0c;拥有众多优质的主题供用户选择。那么国内有哪些比较优秀的wordpress主题呢&#xff1f;下面小编就和大家分享国内功能比较完善比较受欢迎的wordpress主题。 wordpress主题合集&#xff1a;WP主题-办公人导航https:…

软考初级网络管理员_03_硬件单选题

1.CPU是一块超大规模的集成电路&#xff0c;其主要部件有()。 运算器、控制器和系统总线 运算器、寄存器组和内存储器 控制器、存储器和寄存器组 运算器、控制器和寄存器组 2.(请作答此空)是指CPU一次可以处理的二进制的位数&#xff0c;它直接关系到计算机的计算精度、速…