An Efficient Memory-Augmented Transformer for Knowledge-Intensive NLP Tasks

本文是LLM系列文章,针对《An Efficient Memory-Augmented Transformer for
Knowledge

一种用于知识密集型NLP任务的高效内存增强转换器

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 高效内存增强Transformer
  • 4 EMAT的训练流程
  • 5 实验
  • 6 分析
  • 7 结论
  • 局限性

摘要

获取外部知识对于许多自然语言处理任务至关重要,例如问答和对话。现有的方法通常依赖于将知识存储在其参数中的参数模型,或者使用可以访问外部知识源的检索增强模型。参数模型和检索增强模型在计算效率和预测准确性方面具有互补优势。为了结合这两种方法的优势,我们提出了高效内存增强Transformer(EMAT)——它将外部知识编码为键值内存,并利用快速最大内积搜索进行内存查询。我们还引入了预训练任务,允许EMAT对信息性键值表示进行编码,并学习将多个内存槽集成到Transformer中的隐式策略。在各种知识密集型任务(如问答和对话数据集)上的实验表明,使用我们的方法简单地扩充参数模型(T5基础)会产生更准确的结果(例如,25.8→ NQ上的44.3 EM)同时保持高吞吐量(例如NQ上1000个查询/s)。与检索的改进模型相比,EMAT在WoW和ELI5上运行得更快,结果更准确。

1 引言

2 相关工作

3 高效内存增强Transformer

4 EMAT的训练流程

5 实验

6 分析

7 结论

在这项工作中,我们提出了一种有效的内存改进Transformer(EMAT),它结合了参数模型和检索改进模型的优点。它将外部知识编码到键值存储器中,并利用快速MIPS搜索进行存储器查询。我们引入了预训练任务,以学习更好的键值表示和将多个内存槽集成到transformer中。在知识密集型任务上的实验,包括开放域问答、对话和长形式问答,表明了EMAT的准确性和快速性。在未来,我们将寻求改进,将更多样化的知识整合到记忆中,并将我们的方法推广到更多的下游任务中。

局限性

一个限制是内存检索模块需要弱监督才能进行训练。这可能意味着,当应用于不同的下游任务时,我们定义了不同的弱监管标签。可以使用端到端的训练技术,如Paranjape等人提出的技术,用解码器的梯度训练记忆检索模块,我们将其作为未来的工作。另一个潜在的限制是,我们需要存储密集的键值存储器M,这需要大约300GB的CPU RAM。但由于获得CPU RAM比GPU内存多的机器相对容易,而且大多数深度学习工作站都能达到这一要求,我们认为这并不是太大的限制。此外,在内存资源不足的情况下,我们可以使用LRU缓存来节省RAM。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/67284.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OpenCV(二十):图像卷积

1.图像卷积原理 图像卷积是一种在图像上应用卷积核的操作。卷积核是一个小的窗口矩阵,它通过在图像上滑动并与图像的像素进行逐元素相乘,然后求和来计算新图像中每个像素的值。通过滑动卷积核并在图像上进行逐像素运算,可以实现一系列图像处理…

(笔记七)利用opencv进行形态学操作

(1)程序清单 形态学操作是一种图像处理技术,它基于数学形态学理论,用于改变图像的形状和结构。它主要通过结构元素的腐蚀和膨胀操作来实现。 #!/usr/bin/env python # -*- coding:utf-8 -*- """ author: LIFEI t…

Vue生成多文件pdf准考证

这是渲染的数据 这是生成的pdf文件,直接可以打印 需要安装和npm依赖和引入封装的pdf.js文件 npm install --save html2canvas // 页面转图片 npm install jspdf --save // 图片转pdfpdf.js文件 import html2canvas from "html2canvas"; import jsPDF …

SpringMVC框架@RequestMapping用法,处理器方法参数接收,处理器方法返回值详解

1. RequestMapping 定义请求规则 1.1 指定模块名称 通过RequestMapping 注解可以定义处理器对于请求的映射规则。该注解可以注解在方 法上,也可以注解在类上,但意义是不同的。value 属性值常以“/”开始。RequestMapping 的 value 属性用于定义所匹配请…

Python 爬虫—scrapy

scrapy用于从网站中提取所需数据的开源协作框架。以一种快速、简单但可扩展的方式。 该爬虫框架适合于那种静态页面, js 加载的话,如果你无法模拟它的 API 请求,可能就需要使用 selenium 这种使用无头浏览器的方式来完成你的需求了 入门 imp…

【实战-05】 flinksql look up join

摘要 look up join 能做什么? 不饶关子直接说答案, look up join 就是 广播。 重要是事情说三遍,广播。flinksql中的look up join 就类似于flinks flink Datastream api中的广播的概念,但是又不完全相同,对于初次访问…

C语言中关于printf()输出的时候的一个出栈入栈问题

先看一段代码,可以自己尝试一下,反正我当时尝试的时候好多搞不懂, 不过现在搞懂了,里面牵扯到了一个入栈和出栈的问题, 官方解释是这个: 因为C语言函数参数入栈顺序是从右到左的,所以计算顺序是…

20230904工作心得:集合应该如何优雅判空?

1 集合判空 List<String> newlist null;//空指针if( !newlist.isEmpty()){newlist.forEach(System.out::println);}//空指针if(newlist.size()>0 && newlist!null){newlist.forEach(System.out::println);}//可行if(newlist!null && newlist.size()&…

C语言 语法积累

参考博文&#xff1a; c语言中int默认是有符号还是无符号,C语言迷题&#xff1a;有符号数与无符号数的问题_旋斡勃人的博客-CSDN博客前些天偶然看到了一个收集C语言迷题的网站&#xff0c;很是感兴趣。本人对C/C语言本身很是感兴趣&#xff0c;曾经做过几年相应的开发&#xf…

van-cascader 异步加载

vant官网 异步加载选项 在使用级联选择时当一次性拿到数据量太大时不仅接口慢而且前端渲染页面也会变慢&#xff0c;用户体验很不好&#xff0c;建议使用异步加载选项&#xff0c; 拿到的接口让后端返回一个是否还有下一级的判断&#xff0c;不然van-cascader判断没有childre…

【Redis专题】Redis核心数据结构实战与高性能原理解析

目录 前言课程内容一、redis数据类型1.1 字符串&#xff08;string&#xff09;类型&#xff1a;比较简单的一种使用存储模型常用命令&#xff1a;&#xff08;截取自【菜鸟教程】&#xff09;部分演示应用场景 1.2 哈希&#xff08;hash&#xff09;类型&#xff1a;同类数据归…

EasyExcel 修改导出的文件属性

EasyExcel 修改导出的文件属性 导出的文件有多种属性,本文只针对sheet名称进行举例 需要自定义拦截器 ExcelWriter excelWriter EasyExcel.write(fileName).withTemplate(stream).registerWriteHandler(new TemplateSheetStrategyHandler()).build()registerWriteHandler (n…

使用rem + sass + 媒体查询 进行横竖屏适配移动端项目

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 一、 媒体查询&#xff08;Media Query&#xff09;1.简单了解2.简单例子3. 语法&#xff08;1&#xff09;媒体类型&#xff08;mediatype &#xff09;&#xff0…

快讯 | ALVA 荣获首届“格物杯”联通物联网应用创新大赛复赛一等奖!

8 月 7 日&#xff0c;“物聚龙江 智联百业”物联网创新发展合作交流暨首届“格物杯”联通物联网应用创新大赛企业赛道复赛 (赛区四)在哈尔滨举办。 ALVA Systems 凭借智能远程协助平台—— ALVA Rainbow 在近 50 家企业中脱颖而出&#xff0c;荣获首届“格物杯”联通物联网应…

静态路由配置实验:构建多路由器网络拓扑实现不同业务网段互通

文章目录 一、实验背景与目的二、实验拓扑三、实验需求四、实验解法1. 配置 IP 地址2. 按照需求配置静态路由&#xff0c;实现连接 PC 的业务网段互通 摘要&#xff1a; 本实验旨在通过配置网络设备的IP地址和静态路由&#xff0c;实现不同业务网段之间的互通。通过构建一组具有…

华为云 异构数据迁移

数据库和应用迁移 UGO&#xff08;Database and Application Migration UGO&#xff0c;以下简称为UGO&#xff09;是专注于异构数据库结构迁移的专业服务。可将源数据库中的DDL、DML和DCL一键自动转换为华为云GaussDB/RDS的SQL语法&#xff0c;通过数据库评估、对象迁移两大核…

如何实现MongoDB数据的快速迁移?

作为一种Schema Free文档数据库&#xff0c;MongoDB因其灵活的数据模型&#xff0c;支撑业务快速迭代研发&#xff0c;广受开发者欢迎并被广泛使用。在企业使用MongoDB承载应用的过程中&#xff0c;会因为业务上云/跨云/下云/跨机房迁移/跨地域迁移、或数据库版本升级、数据库整…

《TCP/IP网络编程》阅读笔记--基于TCP的服务器端/客户端

1--TCP/IP协议栈 TCP/IP协议栈共分 4 层&#xff0c;可以理解为数据收发分成了 4 个层次化过程&#xff1b; 链路层&#xff1a; 链路层是物理链接领域标准化的结果&#xff0c;专门定义LAN、WAN、MAN等网络标准&#xff1b; IP层&#xff1a; IP层用于解决数据传输过程中路径的…

小程序中如何查看会员的余额和变更记录

​通过查看会员的余额和变更记录&#xff0c;可以帮助商家更好地管理会员资金&#xff0c;提供更好的服务和用户体验。下面将介绍小程序中如何查看会员的余额以及余额的变更记录。 1. 找到指定的会员卡。在管理员后台->会员管理处&#xff0c;找到需要查看余额和记录的会员…

LoadImageTask

目录 1 LoadImageTask 1.1 // doInBackground完成后才会被调用 1.1.1 // 调用setTag保存图片以便于自动更新图片 1.2 // 从网上下载图片 1.2.1 // new URL对象 把网址传入 1.2.2 // 把下载好的图片保存到缓存中 LoadImageTaskpackage com.shrimp.xiaoweirob