带记忆的Transformer模块

MEMORIZING TRANSFORMERS

返回论文和资料目录

论文地址

1.导读

谷歌去年做的一个工作。内容很简单,在Transformer模块中加入了一层记忆层,结果表明这个方法可以帮助模型提高在NLP任务上的表现:generic webtext (C4), math papers (arXiv), books (PG-19),code (Github)。

2.摘要和引言

Transformer缺乏长期记忆的能力。以往的方式是通过训练,利用模型的参数来存储长期记忆,但这种方式需要大量的训练。
因此,作者提出将上一次模型中的一部分键和值(这里要看懂,需要了解Transformer结构中的Q,K,V)进行存储,再后面使用时,再利用一个被广泛应用的信息检索的方式–近似K近邻查找KNN来检索这个信息。最后,利用这个检索得到的信息和现有的信息得到结果。

相比以往的,作者认为有两个不同。

  1. KNN直接找原本文,而不是对原文本进行归纳总结。
  2. 反向传播的梯度不会更新外部内存。

3.方法

直接用下图理解。
在这里插入图片描述
与之前的Transformer不同的地方是1.左边加入了一个外部内存用于存放长期技艺,2.KNN检索 ,3.KNN attention层

作者提出首先将前M个input输入到KNN&local attention+FFN时的在FFN的建K和值V存放在外部内存(左边橙色)。
下一次输入时,会利用KNN检索当前的Q与之前的。。。对不起我看不懂作者想说啥。

未完待续

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/2075.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SSE 和 Websocket 的比较

108. SSE 和 Websocket 的比较 当涉及到实现实时通信的Web应用程序时,两种常见的技术选择是服务器发送事件(Server-Sent Events,SSE)和WebSocket。虽然它们都可以用于实现实时通信,但它们在工作原理、适用场景和功能上…

Generative Adversarial Network

Goodfellow,2014年 文献阅读笔记--GAN--Generative Adversarial NetworkGAN的原始论文-组会讲解_gan英文论文_Flying Warrior的博客-CSDN博客 启发:如何看两个数据是否来自同一个分布? 在统计中,two sample test。训练一个二分类的分类器,如果能分开这两个数据,说明来自…

HTML <object> 标签

实例 向 HTML 代码添加一个对象&#xff1a; <object classid"clsid:F08DF954-8592-11D1-B16A-00C0F0283628" id"Slider1" width"100" height"50"><param name"BorderStyle" value"1" /><param…

数据库复习

select 查询 字段别名用 as (可以为中文) 例如 select distinct 关键字 去重复值 例如select distinct deptno from test where 条件过滤 and or 和 not运算符 and同时成立 or有一个成立就可以了 优先级and>or>not不符合&#xff08;!&#xff09; in 匹配多个值 selec…

Windows上查看服务器上tensorboad内容

文章目录 前言一、SSH的设置二、tensorboard命令 前言 本篇文章是针对于局域网内的服务器的tensorboard可视化&#xff0c;由于设置方式稍微有点复杂&#xff0c;导致我每次隔了一段时间之后&#xff0c;就不知道该怎么查看tensorboard了&#xff0c;每次都要百度搜一大堆资料…

SpringCloud系列(十六)[分布式搜索引擎篇] - DSL 查询及相关性算分的学习 (部分)

在SpringCloud系列&#xff08;十五&#xff09;[分布式搜索引擎篇] - 结合实际应用场景学习并使用 RestClient 客户端 API这篇文章中我们已经对 RestClient 有了初步的了解, 并且已经将一些数据进行了存储, 但是这并不是我们学习 ElasticSearch 的目的, ElasticSearch 最擅长的…

SQL中的where语句的使用

WHERE语句用于在SQL查询中过滤行&#xff0c;只返回满足特定条件的行。下面是一些常用的WHERE语句的例子&#xff0c;假设有三个表&#xff1a;users&#xff0c;products和orders。 1. 简单的WHERE子句 SELECT * FROM users WHERE age > 18; 这条语句将从users表中选择所…

物业管理微信小程序的设计与开发

1.物业管理微信小程序实现的功能 该微信小程序包含小程序端&#xff0c;后台管理端以及后端。 小程序端提供给业主使用&#xff0c;实现的功能模块有公告通知、访客预约、车位申请、装修申请、一键报修、报修单、意见反馈、缴费通知、一键求助、个人信息管理&#xff1b; 后台…

arcgis建筑物平均高度

主要用到相交和属性表的汇总功能。 路网 建筑物栋 相交结果 右键&#xff0c;bh列汇总 原始块有392&#xff0c;这里只有389&#xff0c;说明有的地块没有建筑&#xff0c;所以应该将表连接到原始街区上检查是否合理&#xff0c;以及随机验证一个结果是否正确。 连接结果&…

使用matlab里的集成树进行数据回归预测

当使用MATLAB时&#xff0c;您可以使用集成学习方法中的决策树来进行数据回归预测。决策树回归是一种基于树状结构的机器学习算法&#xff0c;它通过对训练数据进行分层次的决策来进行预测连续值的输出。 MATLAB提供了一个称为RegressionTree的集成树回归器。以下是一个使用MA…

无涯教程-Javascript - 变量声明

编程语言的最基本特征之一是它支持的数据类型&#xff0c;这些是可以用编程语言表示和操作的值的类型。 JavaScript允许您使用三种原始数据类型- 数字(Numbers)类型 - 如123、120.50等 字符串(Strings)类型 - 如"hello would"等 布尔值(Boolean)类…

中高级前端必须掌握的package.json最新最全指南

前言 package.json 是一个用于描述和配置项目的重要文件&#xff0c;其中包含了许多字段和选项&#xff0c;可以影响项目的构建、依赖管理、脚本执行等方面。了解这些字段可以帮助开发者更好地理解和控制项目的行为。 package.json对于大部分前端开发者来说&#xff0c;知道d…

spring boot maven 手动打入外部jar包依赖

有时候拿到第三方sdk是&#xff0c;以前都放在项目的某个目录下&#xff0c;然后通过项目路径去引入非常麻烦&#xff0c;最近找到了一个方法&#xff0c;可以手动将外部的jar包导入到本地的maven仓库中&#xff0c;这样你就可以像其他依赖一样正常使用了。 命令如下 mvn inst…

Spring6.0 源码部署

环境依赖 Git JDK17 Gradle&#xff08;版本号需要和Spring源码中的版本一致&#xff09; 源码下载 官网地址 源码配置修改 maven { url "https://maven.aliyun.com/repository/central" }gradle-wrapper.properties #distributionUrlhttps\://services.gradle…

无虚拟 DOM 版 Vue 进行到哪一步了?

前言 就在一年前的 Vue Conf 2022&#xff0c;尤雨溪向大家分享了一个非常令人期待的新模式&#xff1a;无虚拟 DOM 模式&#xff01; 我看了回放之后非常兴奋&#xff0c;感觉这是个非常牛逼的新 feature&#xff0c;鉴于可能会有部分人还不知道或者还没听过什么是 Vue 无虚…

离线安装Elasticsearch7.15.1集群(使用内置jdk)

离线安装Elasticsearch7.15.1集群(使用内置jdk) 背景&#xff1a; 以192.168.50.210、192.168.50.211、192.168.50.212这三台机器为例&#xff0c;进行相关的配置 而我本地的jdk是1.8的&#xff0c;已经不符合要求了。但项目中没有那么高版本的jdk&#xff0c;也只想用1.8版本…

Excel-公式VLOOKUP 使用方法-小记

个人愚见 表示 MongoDB列中的任意一条数据 在 MySQL列 精确查找 和MongoDB列 中一模一样的数据&#xff0c;有的话返回MongoDB列数据&#xff0c;没有话返回#N/A 官方解释

【Web安全】小白怎么快速挖到第一个漏洞,src漏洞挖掘经验分享,绝对干货!

src漏洞挖掘经验分享 – 掌控安全以恒 一、公益src 公益src是一个白帽子提交随机发现的漏洞的品台&#xff0c;我们可以把我们随机发现或者是主动寻找到的漏洞在漏洞盒子进行提交。 在挖掘src的时候不能越红线&#xff0c;一般情况下遇到SQL注入 只获取数据库名字以证明漏洞的…

myAgv的slam算法学习以及动态避障下篇

引言 在之前的一篇文章中有提到购入了一台myAGV&#xff0c;以树莓派4B为控制核心的移动机器人。上篇文章中向大家介绍了myAGV如何实现建图、导航以及静态避障&#xff0c;但我们深知&#xff0c;这只是机器人自主导航能力的基础。在实际应用场景中&#xff0c;机器人需要面对复…

Flask入门:flask run运行入口函数

背景&#xff1a; 这两天在看后端代码覆盖率平台代码的时候&#xff0c;发现启动服务只需要执行flask run命令即可。但是找了半天都没有看到工程中Flask app实例对象是在哪里创建的。工程中定义了一个create_app()函数&#xff0c;可是没有看到调用它的地方。带着疑惑&#xf…