【AI学习】Mamba学习(二十):Mamba是一种线性注意力

论文《Demystify Mamba in Vision: A Linear Attention Perspective 》从线性注意力的视角,对Mamba 进行了阐释。

论文名称:Demystify Mamba in Vision: A Linear Attention Perspective (Arxiv 2024.05)
论文地址:https://arxiv.org/pdf/2405.16605
https://ar5iv.labs.arxiv.org/html/2405.16605

理解Mamba的一个维度是从RNN出发,另一个维度是从线性注意力的角度。
在这里插入图片描述

文章《Mamba是一种线性注意力?清华大学揭开视觉Mamba的真面目!》对这篇论文有详细的阐释。
(文章链接:https://mp.weixin.qq.com/s/0yPNXAujJyRLIIgM9bxF3Q)
我这里摘录一些关键信息。

Mamba的形式转化

直接看文章的图2
在这里插入图片描述
图2展示了如何将SSM的公式转换为与线性注意力机制相似的形式,从而揭示SSM和线性注意力之间的联系。

线性注意力的形式转化

Softmax注意力的形式:
在这里插入图片描述
线性注意力的形式:
在这里插入图片描述
线性注意力转化为递归形式:
在这里插入图片描述

Mamba与线性注意力的对比

分别从图示和公式的形式,将manba和线性注意力进行对比:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
除了这4个差异之外,重要的是要注意式12表示单头线性注意力。这表明选择性状态空间模型类似于单头线性注意,不包含多头设计。

总之,选择性 SSM 和线性注意力之间的相似性和差异可以概括为:
选择性状态空间模型类似于具有附加输入门、遗忘门和 Shortcut 的线性注意力,同时省略归一化和多头设计。

进一步的分析:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

文章的摘要和结论

摘要:Mamba是一个具有线性计算复杂度的有效状态空间模型。它最近在处理各种视觉任务中的高分辨率输入方面展现出了令人印象深刻的效率。在本文中,我们揭示了强大的Mamba模型与线性注意力Transformer之间惊人的相似之处,后者在实践中通常表现不如传统的Transformer。通过探索有效的Mamba和表现不佳的线性注意力Transformer之间的相似性和差异,我们提供了全面的分析,以揭开Mamba成功的幕后关键因素。具体来说,我们在统一的公式框架内重新表述了选择性状态空间模型和线性注意力,将Mamba描述为线性注意力Transformer的一个变体,具有六个主要区别:输入门、遗忘门、快捷连接、无注意力归一化、单头和修改后的块设计。对于每个设计,我们都仔细分析了其优缺点,并通过实证评估了其对视觉任务中模型性能的影响。有趣的是,结果突出显示,遗忘门和块设计是Mamba成功的两个核心贡献因素,而其他四个设计则不那么关键。基于这些发现,我们提出了一个Mamba启发的线性注意力(MILA)模型,将这两个关键设计的优点融入线性注意力中。结果表明,该模型在图像分类和高分辨率密集预测任务中都超越了各种视觉Mamba模型,同时享有可并行计算和快速推理速度

文章的主要结论:

  1. Mamba与线性注意力Transformer的关系:文章揭示了Mamba模型与线性注意力Transformer之间惊人的相似性,并将Mamba重新表述为线性注意力Transformer的一个变体,具有六个主要区别:输入门、遗忘门、快捷方式、无注意力标准化、单头和修改的块设计。

  2. 关键设计因素分析:通过细致分析每个设计因素的利弊,并实证评估其对视觉任务中模型性能的影响,发现遗忘门和块设计是Mamba成功的核心因素,而其他四个设计因素则不那么关键。

  3. 提出Mamba-Like Linear Attention (MLLA)模型:基于上述发现,文章提出了一个Mamba-Like Linear Attention (MLLA)模型,该模型将两个关键设计的优点结合到线性注意力中。结果表明,MLLA模型在图像分类和高分辨率密集预测任务方面都优于各种视觉Mamba模型,同时具有可并行计算和快速推理速度。

  4. 遗忘门的替代方案:文章还探讨了遗忘门的本质,并验证了在视觉任务中可以用适当的位置编码替代遗忘门,以保持并行化的计算和快速推理。

这些结论提供了对Mamba模型成功因素的深入理解,并展示了如何通过结合Mamba的关键设计优点来提升线性注意力模型的性能。

**Mamba块设计的宏观架构:**现代线性注意力Transformer模型通常采用如图3(a)所示的块设计,包括线性注意力子块和MLP(多层感知机)子块。与之相比,Mamba通过结合H3和Gated Attention两种基本设计,修改了块设计,如图3(b)所示。Mamba的改进块设计整合了多种操作,如选择性状态空间模型、深度卷积、线性映射、激活函数、门控机制等,比传统的Transformer块设计更有效。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/63407.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

POI遍历行所有单元格的两种方式,getPhysicalNumberOfCells方式有问题,勿用

今天看POI源码的时候&#xff0c;发现HSSFWorkbook类型的工作簿&#xff0c;行数据是用TreeMap<Integer, HSSFRow>存储的&#xff0c;列数据是用HSSFCell[]数组来存的&#xff1b;XSSFWorkbook类型的工作簿&#xff0c;行数据是用SortedMap<Integer, XSSFRow>存储的…

DataSophon集成CMAK KafkaManager

本次集成基于DDP1.2.1 集成CMAK-3.0.0.6 设计的json和tar包我放网盘了. 通过网盘分享的文件&#xff1a;DDP集成CMAK 链接: https://pan.baidu.com/s/1BR70Ajj9FxvjBlsOX4Ivhw?pwdcpmc 提取码: cpmc CMAK github上提供了zip压缩包.将压缩包解压之后 在根目录下加入启动脚本…

ArrayList常见操作源码逐句剖析

目录 前言 正文 1.需要了解的一些字段属性 1.存储 ArrayList 元素的数组缓冲区。 2.集合的大小 3.默认集合容量大小 2.ArrayList对象创建 1.无参构造 2.有参构造1 3.有参构造2 3.添加元素add(E e)以及扩容机制 ​编辑 后言 前言 源码的剖析有助于理解设计模式&…

重磅更新:CnosDB 2.3.5.4 版本上线, 性能提升,问题修复一网打尽

&#x1f4e2; 重磅更新&#xff1a;CnosDB 2.3.5.4 版本上线, 性能提升&#xff0c;问题修复一网打尽 &#x1f4e2; 我们很高兴地向大家介绍最新版本的更新&#xff0c;以下是本次更新的主要内容&#xff1a; &#x1f539; 版本号&#xff1a;2.3.5.4 &#x1f539; 发布…

SD-WAN 2.0 在金融行业的典型应用场景

目录 全扁平化组网 场景需求 应用方案 SD-WAN 2.0 在金融行业的创新实践 SD-WAN5G提高金融行业网络接入可靠性 全扁平化组网 随着金融机构数字化转型的推进&#xff0c;机构业务的多样性、复杂性、 个性化等要求&#xff0c;对现有的金融机构网络架构与网管人员运维模式提出…

如何延长相机电池续航时间

如果你曾在拍摄过程中突然发现相机电池电量不足&#xff0c;就会知道那有多让人紧张和沮丧了。无论你是在拍摄小朋友的生日派对、家庭聚会&#xff0c;还是作为一名专业摄影师在工作&#xff0c;保持电池有电都是至关重要的。否则&#xff0c;你就有可能错过精彩瞬间&#xff0…

C#开发-集合使用和技巧(十)Union用法-并集

在 C# 中&#xff0c;IEnumerable 的 Union 方法用于返回两个序列的并集。Union 方法会去除重复的元素&#xff0c;确保结果集中每个元素都是唯一的。以下是 Union 方法的基本用法&#xff1a; 基本语法 public static IEnumerable<TSource> Union<TSource>(this…

轻量化特征融合 | YOLOv11 引入一种基于增强层间特征相关性的轻量级特征融合网络 | 北理工新作

本改进已同步到Magic框架 摘要—无人机图像中的小目标检测由于分辨率低和背景融合等因素具有挑战性,导致特征信息有限。多尺度特征融合可以通过捕获不同尺度的信息来增强检测,但传统策略效果不佳。简单的连接或加法操作无法充分利用多尺度融合的优势,导致特征之间的相关性不…

ABAP 系统变量SY-INDEX与SY-TABIX的区别

ABAP系统变量SY-INDEX与SY-TABIX都是在循环中使用&#xff1a; SY-INDEX在Do...EndDo和While...EndWhile中起作用&#xff1b; SY-TABIX在Loop...EndLoop中有效。 详见如下实例&#xff1a; REPORT ztest_index_tabix.DATA:lit_vbak TYPE STANDARD TABLE OF vbak,lwa_vbak …

方案拆解 | 打击矩阵新规频出!2025矩阵营销该怎么玩?

社媒平台的矩阵营销又要“变天”了&#xff1f;&#xff01; 11月18日&#xff0c;小红书官方发表了被安全薯 称为“小红书史上最严打击黑灰产专项”新规&#xff0c;其中就包括黑灰产矩阵号的公告。 ▲ 图源&#xff1a;小红书 实际上&#xff0c;不包括这次&#xff0c;今年…

Lua语言入门 - Lua 数组

Lua 数组 数组&#xff0c;就是相同数据类型的元素按一定顺序排列的集合&#xff0c;可以是一维数组和多维数组。 在 Lua 中&#xff0c;数组不是一种特定的数据类型&#xff0c;而是一种用来存储一组值的数据结构。 实际上&#xff0c;Lua 中并没有专门的数组类型&#xff…

SVM的基本思想

一、SVM的基本思想 SVM的基本思想是在样本的向量空间中寻找一个超平面&#xff0c;使得两类样本被分割在平面的两端。这样的平面理论上有无穷多个&#xff0c;但SVM的目标是找到一个最优的超平面&#xff0c;即两侧距离超平面最近的样本点到超平面的距离被最大化的超平面。这个…

Java基于SpringBoot的网上订餐系统,附源码

博主介绍&#xff1a;✌Java老徐、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专栏推荐订阅&#x1f447;&…

【 工具变量】IPCC碳排放因子数据测算表

一、数据简介&#xff1a; 排放因子法是IPCC提出的一种碳排放估算方法&#xff0c;也是目前适用范围最广、应用最为普遍的方法。将各类能源消耗的实物统计量转变为标准统计量&#xff0c;再乘以各自的碳排放因子&#xff0c;加总之后就可以得到碳排放总量。如果按照ISO14064标…

备忘录模式的理解和实践

引言 在软件开发中&#xff0c;我们经常会遇到需要保存对象状态并在某个时间点恢复到该状态的需求。这种需求类似于我们平时说的“后悔药”&#xff0c;即允许用户撤销之前的操作&#xff0c;恢复到某个之前的状态。备忘录模式&#xff08;Memento Pattern&#xff09;正是为了…

湖南铂乐家具新潮流,岛台不再是大平层的专属

湖南铂乐家具设计师们以巧思打破常规&#xff0c;无论是精致温馨的小户型公寓&#xff0c;还是布局紧凑的普通住宅&#xff0c;都能找到适配的岛台设计。以往岛台总是与宽敞开阔的大平层空间紧密相连&#xff0c;仿佛是大户型的身份象征。而如今岛台不再是大平层的专属。 在固…

RK3568笔记3:开发板启动流程

第1章 启动流程 1.1 上电复位 CPU 复位&#xff0c;进入启动模式。系统硬件查找启动设备&#xff08;如 eMMC&#xff09;。 1.2 ROM Code 阶段&#xff08;硬件引导&#xff09; 在片上 ROM 中存储的启动代码&#xff08;BootROM&#xff09;运行。ROM Code 从 eMMC 的 Boo…

重邮+数字信号处理实验三:z变换及离散LTI系统的z域分析

实验目的&#xff1a; &#xff08; 1 &#xff09;学会运用 Matlab 求离散时间信号的有理函数 z 变换的部分分式展开&#xff1b; &#xff08; 2 &#xff09;学会运用 Matlab 分析离散时间系统的系统函数的零极点&#xff1b; &#xff08; 3 &#xff09;学会运用 …

dolphinScheduler 任务调度

#Using docker-compose to Start Server #下载&#xff1a;https://dlcdn.apache.org/dolphinscheduler/3.1.9/apache-dolphinscheduler-3.1.9-src.tar.gz $ DOLPHINSCHEDULER_VERSION3.1.9 $ tar -zxf apache-dolphinscheduler-"${DOLPHINSCHEDULER_VERSION}"-src.t…

node.js中跨域请求有几种实现方法

默认情况下&#xff0c;出于安全考虑&#xff0c;浏览器会实施同源策略&#xff0c;阻止网页向不同源的服务器发送请求或接收来自不同源的响应。 同源策略&#xff1a;协议、域名、端口三者必须保持一致 <!DOCTYPE html> <html lang"en"> <head>&l…