TransformerFAM: Feedback attention is working memory

TransformerFAM: Feedback attention is working memory

相关链接:arxiv
关键字:TransformerFeedback Attention Memory (FAM)working memorylong-context tasksscaling laws

摘要

TransformerFAM是一种新型的Transformer架构,它通过引入反馈循环机制,使得网络能够关注自身的潜在表示。这种设计促进了Transformer内部工作记忆的出现,使其能够处理无限长的序列。TransformerFAM不需要额外的权重,能够与预训练模型无缝集成。实验表明,TransformerFAM在处理长上下文任务时显著提高了不同模型大小(1B、8B和24B)的性能,展示了赋能大型语言模型(LLMs)处理无限长度序列序列的潜力。

核心方法

  1. Feedback Attention Memory (FAM): 通过反馈循环,TransformerFAM能够将注意力机制应用于其自身的潜在表示,从而自然地在Transformer中形成工作记忆。
  2. 无需额外权重: TransformerFAM的设计允许与现有的预训练模型兼容,无需增加额外的权重。
  3. 工作记忆的假设: 假设1.1中提出,反馈循环中的注意力机制充当工作记忆。
  4. 块滑动窗口注意力(BSWA): 通过块大小和记忆段的概念,BSWA能够处理长上下文输入,但存在有限的感受野问题。
  5. 反馈注意力机制: 在BSWA的基础上,TransformerFAM通过反馈机制,使得每个Transformer层都能够拥有分布式的工作记忆,对应其抽象级别。

实验说明

实验结果显示,TransformerFAM在不同模型大小(1B、8B和24B)上处理长上下文任务时的性能均得到显著提升。具体实验数据如下:

模型BSWA 8BFAM 8BBSWA 24BFAM 24B
Isabelle82.182.586.686.6
NarrativeQA18.419.322.623.0
PG-1952.452.955.757.2
ScrollsQasper12.418.528.029.4
ScrollsQuality47.348.555.458.0
XLSum22.024.724.726.4

数据来源于论文中提到的Flan-PaLM模型,使用256k的sentencepiece tokenizer进行处理。实验结果表明,TransformerFAM在所有长上下文任务上均优于TransformerBSWA,且随着模型大小的增加,TransformerFAM的可扩展性得到了验证。

结论

TransformerFAM通过引入反馈注意力机制,有效地解决了大型语言模型在处理长序列时的工作记忆问题。这种架构不仅能够处理无限长度的输入序列,而且在不同规模的模型上都显示出了优越的性能。此外,TransformerFAM的设计允许与现有的预训练模型无缝集成,无需额外的权重,为未来的研究和应用提供了新的可能性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/822349.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

保护视力,从 CareUEyes 开始 —— 你的电脑护眼小助手

在数字化时代,我们的眼睛比以往任何时候都更频繁地面对屏幕。长时间盯着电脑工作,不仅影响视力,还可能导致眼疲劳和不适。今天,我要向大家推荐一款专为电脑用户设计的护眼软件——CareUEyes。 CareUEyes:你的视力守护者…

Linux系统中LVM与磁盘配额

目录 一、LVM逻辑卷管理 二、LVM的管理命令 物理卷管理 卷组管理 逻辑卷管理 *创建并使用LVM步骤 三、磁盘配额概述 实现磁盘限额的条件 Linux 磁盘限额的特点 四、磁盘配额管理 磁盘限额 一、LVM逻辑卷管理 能够在保持现有数据不变的情况下动态调整磁盘容量&#…

JavaScript数据类型 以及检测方法

在JavaScript中,数据类型是编程中非常重要的概念,它决定了数据的性质、如何存储以及如何操作这些数据。以下是JavaScript中的主要数据类型、它们的区别以及数据类型检测的方式的详细介绍。 JavaScript的主要数据类型 1. 原始数据类型(Primi…

C++算法题 - 矩阵

目录 36. 有效的数独54. 螺旋矩阵48. 旋转图像73. 矩阵置零289. 生命游戏 36. 有效的数独 LeetCode_link 请你判断一个 9 x 9 的数独是否有效。只需要 根据以下规则 ,验证已经填入的数字是否有效即可。 数字 1-9 在每一行只能出现一次。 数字 1-9 在每一列只能出现…

selenium反反爬虫,隐藏selenium特征

一、stealth.min.js 使用 用selenium爬网页时,常常碰到被检测到selenium ,会被服务器直接判定为非法访问,这个时候就可以用stealth.min.js 来隐藏selenium特征,达到绕过检测的目的 from selenium import webdriver from seleniu…

Day 2 正式coding之基础模块的搭建

Day 2 正式coding之基础模块的搭建 这里会总结构建项目过程中遇到的问题,以及一些个人思考!! 学习方法: 1 github源码 文档 官网 2 内容复现 ,实际操作 项目源码同步更新到github 欢迎大家star~ 后期会更新并上传前端…

Spring基础篇-快速面试笔记(速成版)

文章目录 1. Spring概述2. 控制反转(IoC)2.1 Spring声明Bean对象的方式2.2 Spring的Bean容器:BeanFactory2.3 Spring的Bean生命周期2.4 Spring的Bean的注入方式 3. Spring的事件监听器(Event Listener)3.1 Spring内置事…

自学Java的第二十四次笔记

一,方法重载 1.基本介绍 java 中允许同一个类中,多个同名方法的存在,但要求 形参列表不一致! 比如: System.out.println(); out 是 PrintStream 类型 2.重载的好处 1) 减轻了起名的麻烦 2) 减轻了记名的麻烦 3.快速入门案…

Linux crontab练习之在系统中设定定时任务并优化定时任务

Linux crontab练习之在系统中设定定时任务并优化定时任务_2 要求 每天凌晨4点系统的设备使用信息并以邮件的方式放送到root邮箱中确保此任务为系统定时任务 脚本实现 #!/bin/bashdnf install postfix s-nail-14.9.22-6.el9.x86_64 -y &> /dev/nullsystemctl enable …

认识海康摄像头的编码信息以及使用等

认识海康摄像头的编码信息以及使用等 主要是来源一下文章: 海康摄像头、NVR命名规则-弱电新人学习! - 知乎 大体是分了三类,当然海康的产品实在是有点多,没找见官方权威的解答,参考着先看看。 网络摄像机、网络球机…

浅谈Java JVM

Java虚拟机(Java Virtual Machine,简称JVM)是Java语言的核心组成部分,它是一个抽象的计算机,负责执行Java字节码指令。JVM是Java平台无关性的基石,它为Java代码提供了一个标准的运行环境,使Java…

golang-基础语法

make 和 new 的区别 make 和 new 都是用来分配内存 make 只能对 slice map channel 进行初始化结构体实例。new 可以对任意类型进行初始化make 用于分配数据对象的具体实例,new 用于分配数据类型的默认值,并返回该数据的指针。 new 出来的 slice 、ma…

【Nginx】MACOS 安装与部署

安装 【前景提要】 1.本文需要使用 Homebrew,没有的建议先安装一下,很好用 国内下载有不可抗力,想要快速下载可以参考这里 2.进入 Terminal(终端/黑窗口),输入以下指令: brew install nginx我…

爬虫(小案例)

点开其中一个链接, http://desk.zol.com.cn/dongman/huoyingrenzhe/(前面为浏览器自动补全,在代码里需要自己补全) 可以看到图片的下载地址以及打开本图集下一张图片的链接 了解完网站的图片构造后动手写代码,我们筛…

html5测试题整理--针对标签的概念性,我们究竟还要学习哪些软件测试知识

先自我介绍一下,小编浙江大学毕业,去过华为、字节跳动等大厂,目前阿里P7 深知大多数程序员,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞…

Ubuntu20.04版本命令行设置挂载磁盘,并设置开机自动挂载

最近部署应用 系统是Ubuntu20.4版本的Linux系统,加了数据盘,需要格式化后挂载,记录下: Linux 数据盘挂载(采用 parted 分区工具)-格式化为 ext4 1. 初始化 Linux 数据盘 挂载数据盘后或者随实例创建时一并创建的数据盘&#xff…

使用SpringBoot3+Vue3开发公寓管理系统

项目介绍 公寓管理系统可以帮助公寓管理员更方便的进行管理房屋。功能包括系统管理、房间管理、租户管理、收租管理、房间家具管理、家具管理、维修管理、维修师傅管理、退房管理。 功能介绍 系统管理 用户管理 对系统管理员进行管理,新增管理员,修改…

碳课堂|碳关税是什么?企业如何从容应对?

2023年10月1日,欧盟碳边境调节机制(CBAM)法规,即全球首个“碳关税”开始实施。据世界银行研究报告称,如果“碳关税”全面实施,在国际市场上,中国制造可能将面临平均26%的关税,出口量…

Android JetPack Compose+Room----实现搜索记录功能

文章目录 需求概述功能展示实现搜索功能使用的技术1.Android Jetpack room2.Android JetPack Compose 代码实现编写搜索界面接入Room实现搜索功能的管理引入依赖定义包结构定义操作表的Dao类定义数据库的基础配置定义数据库的Dao管理类使用数据库升级 源码地址 需求概述 搜索功…

c++中pair的使用方式以及一些常见的操作

c中pair的使用方式以及一些常见的操作 说明 在C中&#xff0c;std::pair 是一个标准库模板&#xff0c;用于将两个值作为一个单元进行存储。可以使用std::pair来将两个值组合成一个有序对。 头文件 #include <utility>创建 std::pair 对象 可以使用多种方式创建 std…