谷歌重塑Transformer:无限记忆力,无限长输入,登上Nature

Infini-attention机制为Transformer在具有挑战性的长语境任务中释放出了新的能力,对于调整现有模型以适应长输入也非常实用。

谷歌的最新研究成果Infini-attention机制(无限长注意力)将内存压缩引入了传统注意力机制,并在单个Transformer块中构建了掩码局部注意力和长期线性注意力机制。

这一创新使得Transformer架构的大模型能够在有限的计算资源下处理无限长的输入,在内存使用上实现了114倍的压缩比。(相当于一个能够存放100本书的图书馆,通过新技术可以存储11400本书)

当前,Transformer 的改进研究正如火如荼,是学术界的热门话题之一,这次谷歌对Transformer的改进为其后续的上下游任务的研究提供了丰富的研究素材和灵感。

Infini-attention

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

google(DeepMind)

方法:论文介绍了一种有效的策略,能够将基于Transformer的大型语言模型(LLMs)扩展到在有限内存和计算资源条件下处理无限长输入。该策略的关键组成部分是一种称为Infini-attention的新型注意机制。Infini-attention将内存压缩引入传统的注意机制,并在单个Transformer块中结合了掩码局部注意力和长期线性注意力机制。

创新点:

  1. Infini-attention:引入了一种实用且强大的注意机制,结合了长期压缩记忆和局部因果注意力,有效地对长距离和短距离的上下文依赖关系进行建模。
  2. 压缩记忆:在Infini-attention中,通过重用点积注意力计算中的查询、键和值状态(Q、K和V),而不是为压缩记忆计算新的记忆条目。这种状态共享和重用实现了点积注意力和压缩记忆之间的高效长上下文适应,并加快了训练和推理的速度。

 结语

Infini-attention 机制为 Transformer 语言模型处理超长上下文提供了一种高效而强大的方法,同时不会对内存或计算量造成过多的增加。该方法在具有挑战性的长语境任务中释放出了新的能力,对于调整现有模型以适应长输入也非常实用。实验证明,与之前的方法相比,该方法在性能、压缩和泛化方面都有很强的优势。总之,这项工作为提高长语境语言建模的可扩展性和有效性做出了重大贡献

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/27346.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Github 2024-06-15Rust开源项目日报Top10

根据Github Trendings的统计,今日(2024-06-15统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Rust项目10TypeScript项目1JavaScript项目1Deno: 现代JavaScript和TypeScript运行时 创建周期:2118 天开发语言:Rust, JavaScript协议类型:M…

重装了mysql,然后安装为服务时,net start 启动一直报错,MySQL服务无法启动的解决

之前写过一篇关于安装mysql的文章,按上面的处理,基本上是可以的。 今天换了下目录,重新安装,一直报错。 然后我们来看一下问题: mysqld -console 这里的目录是有问题的,设置的是:datadird:\to…

个人关于Leecode 49题见解(保姆级)

题目: 49. 字母异位词分组 中等 相关标签 相关企业 给你一个字符串数组,请你将 字母异位词 组合在一起。可以按任意顺序返回结果列表。 字母异位词 是由重新排列源单词的所有字母得到的一个新单词。 示例 1: 输入: strs ["eat", "…

AI助力密码安全:利用机器学习提升密码安全性

信息安全已经成为了当今数字世界的一个核心问题,随着互联网技术使用场景的不断增加,创建和管理安全的密码已经成为了保证在线账户安全的关键要求。本文将研究和探讨如何利用人工智能(AI)和机器学习技术来提升密码的安全性。 学习目…

GraphQL(9):Spring Boot集成Graphql简单实例

1 安装插件 我这边使用的是IDEA,需要先按照Graphql插件,步骤如下: (1)打开插件管理 在IDEA中,打开主菜单,选择 "File" -> "Settings" (或者使用快捷键 Ctrl Alt S …

11.3 Go 标准库的使用技巧

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

实体类status属性使用枚举类型的步骤

1. 问题引出 当实体类的状态属性为Integer类型时,容易写错 2. 初步修改 把状态属性强制为某个类型,并且自定义一些可供选择的常量。 public class LessonStatus {public static final LessonStatus NOT_LEARNED new LessonStatus(0,"未学习"…

QT打包(windows linux)封包 完整图文版

目录 简介: 一. for windows 1.首先下载组件 2.开始构建Release版本. 3.然后点击构建 4.在文件夹内直接点击exe文件,会报下面的错误,因为缺少dll连接; 5.需要把这个exe单独复制到一个文件夹内, 6.先cd到单独exe所在的文件夹; cd 文件路径 7.然后运行 windeployqt 文…

KIVY Tutorials » Pong Game Tutorial¶

1Pong Game Tutorial — Kivy 2.3.0 documentation Introduction Welcome to the Pong tutorial 欢迎来到 乒乓球 导师辅导课 This tutorial will teach you how to write pong using Kivy. We’ll start with a basic application like the one described in the Create …

笔记100:使用 OSQP-Eigen 对 MPC 进行求解的方法与代码

1. 前言: 我们在对系统进行建模的时候,为了减少计算量,一般都将系统简化为线性的,系统如果有约束,也是将约束简化为线性的; 因此本篇博客只针对两种常见系统模型的 MPC 问题进行求解: 线性系统…

【Android面试八股文】你知道如何实现非阻塞式生产者消费者模式吗?

文章目录 这道题想考察什么 ?考察的知识点日常生活中的生产者消费者模式生产者消费者模式简介为什么需要缓冲区?阻塞与非堵塞非阻塞式生产者消费者模式的实现非阻塞式生产者消费者模式的实现阻塞式生产者消费者模式实现特点这道题想考察什么 ? 是否了解非阻塞式生产者消费者…

S686量产工具授权版,S686开卡教程,S686+EMMC固态硬盘开卡量产成功记录

手里有个S686EMMC组合的固态硬盘,华澜微的S686主控,之前一直没找到工具,感觉是废了,一直放着,偶然机会从桌子里又找到它,于是继续搜寻量产工具。 找到量产部落的一篇文章,里面说首发了S686的量产…

php收银系统源码推荐

智慧新零售系统是一套线下线上一体化的收银系统。致力于给零售门店提供『多样化线下收银』、『ERP进销存』、『o2o小程序商城』、『精细化会员管理』、『丰富营销插件』等一体化行业解决方案! 一、多样化线下收银 1.聚合收款码 ①适用商户:小微门店&am…

后端高频面试题分享-用Java判断一个列表是否是另一个列表的顺序子集

问题描述 编写一个函数,该函数接受两个列表作为参数,判断第一个列表是否是第二个列表的顺序子集,返回True或False。 要求 判断一个列表是否是另一个列表的顺序子集,即第一个列表的所有元素在第二个列表需要顺序出现。列表中的元…

【实例分享】银河麒麟高级服务器操作系统环境资源占用异常-情况分析及处理方法

1.情况描述 使用vsftp进行文件传输,发现sshd进程cpu占用异常,并且su和ssh登录相比正常机器会慢2秒左右。 图1 2.问题分析 通过strace跟踪su和sshd进程,有大量ssh:notty信息。 图2 配置ssh绕过pam模块认证后,ssh连接速…

python通过selenium实现自动登录及轻松过滑块验证、点选验证码(2024-06-14)

一、chromedriver配置环境搭建 请确保下载的驱动程序与你的Chrome浏览器版本匹配,以确保正常运行。 1、Chrome版本号 chrome的地址栏输入chrome://version,自然就得到125.0.6422.142 版本 125.0.6422.142(正式版本) (…

全息图分类及相位型全息图制作方法

全息图是一种光学器件,全息图分为振幅型和相位型全息图,振幅型全息图记录光的振幅信息即强度信息,相位型全息图记录光的相位信息,利用相位信息可以恢复光的波前形状,从而记录物体形状,这里主要介绍相位全息…

【尚庭公寓SpringBoot + Vue 项目实战】图片上传(十)

【尚庭公寓SpringBoot Vue 项目实战】图片上传(十) 文章目录 【尚庭公寓SpringBoot Vue 项目实战】图片上传(十)1、图片上传流程2、图片上传接口查看3、代码开发3.1、配置Minio Client3.2、开发上传图片接口 4、异常处理 1、图片…

适合小白学习的项目1832javaERP管理系统之仓库采购管理Myeclipse开发mysql数据库servlet结构java编程计算机网页项目

一、源码特点 java erp管理系统之仓库采购管理是一套完善的web设计系统,对理解JSP java编程开发语言有帮助采用了serlvet设计,系统具有完整的源代码和数据库,系统采用web模式,系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Mye…

GitCode热门开源项目推荐:Spider网络爬虫框架

在数字化高速发展时代,数据已成为企业决策和个人研究的重要资源。网络爬虫作为一种强大的数据采集工具受到了广泛的关注和应用。在GitCode这一优秀的开源平台上,Spider网络爬虫框架凭借其简洁、高效和易用性,成为了众多开发者的首选。 一、系…