谷歌重塑Transformer：无限记忆力，无限长输入，登上Nature

谷歌重塑Transformer：无限记忆力，无限长输入，登上Nature

web/2025/12/17 13:44:33/文章来源:https://blog.csdn.net/m0_53675977/article/details/139689454

Infini-attention机制为Transformer在具有挑战性的长语境任务中释放出了新的能力，对于调整现有模型以适应长输入也非常实用。

谷歌的最新研究成果Infini-attention机制（无限长注意力）将内存压缩引入了传统注意力机制，并在单个Transformer块中构建了掩码局部注意力和长期线性注意力机制。

这一创新使得Transformer架构的大模型能够在有限的计算资源下处理无限长的输入，在内存使用上实现了114倍的压缩比。（相当于一个能够存放100本书的图书馆，通过新技术可以存储11400本书）

当前，Transformer 的改进研究正如火如荼，是学术界的热门话题之一，这次谷歌对Transformer的改进为其后续的上下游任务的研究提供了丰富的研究素材和灵感。

Infini-attention

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

google（DeepMind）

方法：论文介绍了一种有效的策略，能够将基于Transformer的大型语言模型（LLMs）扩展到在有限内存和计算资源条件下处理无限长输入。该策略的关键组成部分是一种称为Infini-attention的新型注意机制。Infini-attention将内存压缩引入传统的注意机制，并在单个Transformer块中结合了掩码局部注意力和长期线性注意力机制。

创新点：

Infini-attention：引入了一种实用且强大的注意机制，结合了长期压缩记忆和局部因果注意力，有效地对长距离和短距离的上下文依赖关系进行建模。
压缩记忆：在Infini-attention中，通过重用点积注意力计算中的查询、键和值状态（Q、K和V），而不是为压缩记忆计算新的记忆条目。这种状态共享和重用实现了点积注意力和压缩记忆之间的高效长上下文适应，并加快了训练和推理的速度。

结语

Infini-attention 机制为 Transformer 语言模型处理超长上下文提供了一种高效而强大的方法，同时不会对内存或计算量造成过多的增加。该方法在具有挑战性的长语境任务中释放出了新的能力，对于调整现有模型以适应长输入也非常实用。实验证明，与之前的方法相比，该方法在性能、压缩和泛化方面都有很强的优势。总之，这项工作为提高长语境语言建模的可扩展性和有效性做出了重大贡献

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/web/27346.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Github 2024-06-15Rust开源项目日报Top10

Github 2024-06-15Rust开源项目日报Top10

根据Github Trendings的统计，今日(2024-06-15统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Rust项目10TypeScript项目1JavaScript项目1Deno: 现代JavaScript和TypeScript运行时创建周期：2118 天开发语言：Rust, JavaScript协议类型：M…

阅读更多...

重装了mysql，然后安装为服务时，net start 启动一直报错，MySQL服务无法启动的解决

重装了mysql，然后安装为服务时，net start 启动一直报错，MySQL服务无法启动的解决

之前写过一篇关于安装mysql的文章，按上面的处理，基本上是可以的。今天换了下目录，重新安装，一直报错。然后我们来看一下问题： mysqld -console 这里的目录是有问题的，设置的是：datadird:\to…

阅读更多...

个人关于Leecode 49题见解（保姆级）

个人关于Leecode 49题见解（保姆级）

题目： 49. 字母异位词分组中等相关标签相关企业给你一个字符串数组，请你将字母异位词组合在一起。可以按任意顺序返回结果列表。字母异位词是由重新排列源单词的所有字母得到的一个新单词。示例 1: 输入: strs ["eat", "…

阅读更多...

对用户体验的一些思考

对用户体验的一些思考

任何产品最终的形态，某种意义上来说，成功的标准无非就是以最小的成本，创造出最大的利润，盈利才是最终目的。这也就是说，我们做的产品应该顾及买家的感受，即顾客的感受，这被称为“用户体验”。用…

阅读更多...

React框架资源

React框架资源

React框架资源可以从多个方面获取，包括官方文档、教程、书籍、社区等。以下是一些React框架资源的清晰分点和归纳： 官方文档新官方文档：React在2023年3月发布了全新的官方文档，位于https://react.dev/。新文档包含教程、指南…

阅读更多...

AI助力密码安全：利用机器学习提升密码安全性

AI助力密码安全：利用机器学习提升密码安全性

信息安全已经成为了当今数字世界的一个核心问题，随着互联网技术使用场景的不断增加，创建和管理安全的密码已经成为了保证在线账户安全的关键要求。本文将研究和探讨如何利用人工智能（AI）和机器学习技术来提升密码的安全性。学习目…

阅读更多...

「前端+鸿蒙」鸿蒙应用开发-ArkTS语法说明-自定义组件

「前端+鸿蒙」鸿蒙应用开发-ArkTS语法说明-自定义组件

ArkTS 是鸿蒙（HarmonyOS）应用开发中的一个现代框架，它允许开发者以 TypeScript 的方式来创建和管理 UI 组件。以下是使用 ArkTS 创建自定义组件的基本语法说明和示例代码。 ArkTS 快速入门 - 语法说明 - 自定义组件定义组件类自定义组件通常是通过继承 Component 类来定…

阅读更多...

GraphQL（9）：Spring Boot集成Graphql简单实例

GraphQL（9）：Spring Boot集成Graphql简单实例

1 安装插件我这边使用的是IDEA，需要先按照Graphql插件，步骤如下： （1）打开插件管理在IDEA中，打开主菜单，选择 "File" -> "Settings" (或者使用快捷键 Ctrl Alt S …

阅读更多...

运算符有哪些？优先级是怎么样的？转换数据类型的方法？（最少4种）

运算符有哪些？优先级是怎么样的？转换数据类型的方法？（最少4种）

算术运算符： （加法）-（减法）*（乘法）/（除法）%（取模，返回除法的余数）（自增）--（自减） 赋…

阅读更多...

【Qt】xml文件节点读取

【Qt】xml文件节点读取

1. xml文件 test.xml 文件内容 <?xml version"1.0" encoding"utf-8"?> <library><book1><id>00000001</id><name>1111</name></book1> </library>2. 代码 void DataXml::read() {//打开文件QF…

阅读更多...

linux man使用

linux man使用

安装 man-db 提供了 man 命令，less 是 man 的默认分页器。 man-pages 提供了 Linux man 页面的内容。对于中文可以使用： manpages-zh gnome 桌面下可以使用 gnome-help查询使用通过以下命令阅读man手册页： man手册页分为很多段落。…

阅读更多...

简说安全分析

简说安全分析

安全分析的目的识别并解决安全漏洞：通过安全分析，可以识别系统、网络或应用程序中的安全漏洞，并提供相应的修复措施，以减少安全威胁。评估安全风险：安全分析帮助组织评估潜在的安全风险，并提供建议和措施…

阅读更多...

11.3 Go 标准库的使用技巧

11.3 Go 标准库的使用技巧

💝💝💝欢迎莅临我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:「stormsha的主页」…

阅读更多...

智能合约中权限管理不当

智能合约中权限管理不当

权限管理不当 ： 权限管理不当是智能合约中常见的安全问题之一，尤其是在管理员或特定账户被过度赋予权限的情况下。如果合约中的关键功能，如转移资产、修改合约状态或升级合约逻辑，可以被未经授权的实体随意操作，这将构…

阅读更多...

实体类status属性使用枚举类型的步骤

实体类status属性使用枚举类型的步骤

1. 问题引出当实体类的状态属性为Integer类型时，容易写错 2. 初步修改把状态属性强制为某个类型，并且自定义一些可供选择的常量。 public class LessonStatus {public static final LessonStatus NOT_LEARNED new LessonStatus(0,"未学习"…

阅读更多...

QT打包(windows linux)封包完整图文版

QT打包(windows linux)封包完整图文版

目录简介: 一. for windows 1.首先下载组件 2.开始构建Release版本. 3.然后点击构建 4.在文件夹内直接点击exe文件,会报下面的错误,因为缺少dll连接; 5.需要把这个exe单独复制到一个文件夹内, 6.先cd到单独exe所在的文件夹; cd 文件路径 7.然后运行 windeployqt 文…

阅读更多...

结构型模式-装饰模式

结构型模式-装饰模式

装饰模式是什么装饰模式是一种结构型设计模式，它允许你向一个对象添加新的功能，而无需修改原始类的代码。通过将对象包装在一个装饰器类中，你可以在运行时动态地添加、修改或删除对象的行为。装饰模式基于组合而非继承的原则，它…

阅读更多...

KIVY Tutorials » Pong Game Tutorial¶

KIVY Tutorials » Pong Game Tutorial¶

1Pong Game Tutorial — Kivy 2.3.0 documentation Introduction Welcome to the Pong tutorial 欢迎来到乒乓球导师辅导课 This tutorial will teach you how to write pong using Kivy. We’ll start with a basic application like the one described in the Create …

阅读更多...

笔记100：使用 OSQP-Eigen 对 MPC 进行求解的方法与代码

笔记100：使用 OSQP-Eigen 对 MPC 进行求解的方法与代码

1. 前言： 我们在对系统进行建模的时候，为了减少计算量，一般都将系统简化为线性的，系统如果有约束，也是将约束简化为线性的； 因此本篇博客只针对两种常见系统模型的 MPC 问题进行求解： 线性系统…

阅读更多...

【Android面试八股文】你知道如何实现非阻塞式生产者消费者模式吗？

【Android面试八股文】你知道如何实现非阻塞式生产者消费者模式吗？

文章目录这道题想考察什么 ?考察的知识点日常生活中的生产者消费者模式生产者消费者模式简介为什么需要缓冲区？阻塞与非堵塞非阻塞式生产者消费者模式的实现非阻塞式生产者消费者模式的实现阻塞式生产者消费者模式实现特点这道题想考察什么 ? 是否了解非阻塞式生产者消费者…

阅读更多...

最新文章