Transformer和Mamba强强结合!最新混合架构全面开源,推理速度狂飙8倍

最近发现,将Mamba和Transformer模块混合使用,效果会比单独使用好很多,这是因为该方法结合了Mamba的长序列处理能力和Transformer的建模能力,可以显著提升计算效率和模型性能。

典型案例如大名鼎鼎的Jamba:Jamba利用Transformer架构的元素增强Mamba 结构化状态空间模型技术,提供了 256K 上下文窗口,吞吐量直接超了Transformer三倍。

除Jamba外,近日又有不少最新提出的Transformer结合Mamba的研究,效果都很赞,比如Mamba-2-Hybrid,推理速度比Transformer快8倍。

我从这些最新研究中挑选了8个高质量成果供同学们参考学习,全部都是已开源可复现,帮助各位寻找灵感、打磨论文。

论文原文+开源代码需要的同学看文末

An Empirical Study of Mamba-based Language Models

方法:本文主要研究了基于Mamba的选择性状态空间模型与Transformer模型的结合,提出了一种混合SSM-Transformer模型,即Mamba-2-Hybrid,通过将Mamba、自注意力和MLP层组合起来,在所有常见基准测试中都优于Transformer模型。

创新点:

  • 提出了混合SSM-Transformer模型的概念,这种模型由Mamba-2、自注意力和MLP层组成。

  • 提出了Mamba-2-Hybrid模型扩展到支持16K、32K和128K上下文长度的方法。在推理时,Mamba-2-Hybrid模型预测生成一个token的速度可能比Transformer快达8倍;在23个长上下文评估中,16K和32K模型与Transformer基准模型相当甚至超过其性能。

  • 证明了Mamba-2-Hybrid模型在长上下文任务中的泛化能力。通过在Phonebook查找任务中的表现,发现将Mamba-2-Hybrid扩展到支持128K上下文可以完美执行任务,即使电话簿中包含超过150K个标记。

Dimba: Transformer-Mamba Diffusion Models

方法:Dimba 是一种全新的文本到图像扩散模型,它采用了一种结合了 Transformer 和 Mamba 元素的独特混合架构。具体来说,Dimba 在 Transformer 层和 Mamba 层之间交替顺序堆叠块,并通过交叉关注层整合条件信息,从而充分利用了两种架构范式的优势。

创新点:

  • 引入了一个新的文本到图像扩散模型,采用了Transformer和Mamba元素的混合架构。Dimba模型通过在Transformer和Mamba层之间交替堆叠块,并通过交叉注意力层整合条件信息,充分发挥了两种架构范式的优势。

  • 介绍了一种新的状态空间模型,即Mamba,它在处理序列数据方面具有高效性和模型灵活性的优势。Mamba在SSM中引入了时变参数,并提出了一种硬件感知的算法,实现了高效的训练和推理。

Integrating Mamba and Transformer for Long-Short Range Time Series Forecasting

方法:本文探索时间序列数据中Mamba和Transformer架构的融合潜力,提出了一种混合框架Mambaformer,通过内部整合Mamba和Transformer的优势实现长短范围的时间序列预测,实验证明Mambaformer家族在长短范围时间序列预测问题上优于Mamba和Transformer。

创新点:

  • 作者提出了一种混合架构,该架构结合了Mamba和Transformer模型以进行时间序列预测。

  • 核心的Mambaformer层将Mamba层和自注意力层交替排列,以结合Mamba和Transformer的优点。注意力层捕获时间序列数据中的短期依赖性,而Mamba层则增强了捕获长期依赖性的能力。这一层显著提高了Mambaformer系列在长短时范围时间序列预测中的性能。

PoinTramba: A Hybrid Transformer-Mamba Framework for Point Cloud Analysis

方法:本文提出一种新的点云分析方法PoinTramba,通过将Transformer和Mamba的优势相结合,实现了计算复杂度和分析性能之间的平衡,同时引入了双向重要性感知排序算法,进一步提高了性能,实验结果表明该方法在点云分析领域取得了最新的最优成果。

创新点:

  • PoinTramba:这是一个结合了Transformer和Mamba的混合框架,用于点云分析。通过结合这两种架构,PoinTramba在计算复杂性和分析性能之间取得了卓越的平衡。

  • 为了解决点云随机排序对Mamba性能的负面影响,作者引入了一种新的双向重要性感知排序策略。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“曼巴新8”获取全部论文+开源代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/40207.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python统计实战:时间序列分析之简单指数平滑和Holt指数平滑

为了解决特定问题而进行的学习是提高效率的最佳途径。这种方法能够使我们专注于最相关的知识和技能,从而更快地掌握解决问题所需的能力。 (以下练习题来源于《统计学—基于Python》。请在Q群455547227下载原始数据。) 练习题 下表是某只股票…

金属3D打印如何精准选材

随着3D打印技术的飞跃发展,模具制造领域迎来了前所未有的创新机遇。在众多3D打印技术中,SLM金属3D打印以其精度高、复杂结构成型能力,成为众多行业的优选。然而,金属打印材料,如何精准选择,以最大化满足项目…

linux 内核打印log太多咋办?

有时候发现,linux 内核打印太多消息了,对有用消息造成了干扰,如果你一个个源文件去关闭打印太麻烦了,有没有一种更方便的方式来关闭这些消息呢? 对这个需求,内核提供了一个强大而又灵活的方式,…

用html+css设计一个列表清单小卡片

目录 简介: 效果图: 源代码: 可能的问题: 简介: 这个HTML代码片段是一个简单的列表清单设计。它包含一个卡片元素(class为"card"),内部包含一个无序列表(ul),列表项(li)前面有一个特殊的符号(△)。整个卡片元素设计成300px宽,150px高,具有圆角边…

20.【C语言】初识结构体(重要)

定义&#xff1a;由一批数据组合而成的结构型数据 作用&#xff1a;描述复杂对象&#xff0c;创建新的类型 格式&#xff1a; struct 对象 { …… } 介绍. 用法&#xff1a;结构体变量.成员变量 #define _CRT_SECURE_NO_WARNINGS 1 #include <stdio.h> struct hotal…

Prompt-Free Diffusion: Taking “Text” out of Text-to-Image Diffusion Models

CVPR2024 SHI Labshttps://arxiv.org/pdf/2305.16223https://github.com/SHI-Labs/Prompt-Free-Diffusion 问题引入 在SD模型的基础之上&#xff0c;去掉text prompt&#xff0c;使用reference image作为生成图片语义的指导&#xff0c;optional structure image作为生成图片…

安装Linux虚拟机

点击创建新的虚拟机 选择高级 系统自定义推荐 选择稍后安装 选择Linux 虚拟机命名并且选择创建位置 系统自定义 系统自定义推荐 系统自定义推荐 选择安装好的iOS文件 点击完成 选择编辑虚拟机设置 进入后选择第一个Install red hat enterprise 选择常用语言 设置…

2024.8月28号杭州电商博览会,在杭州国博举办

2024杭州电商新渠道博览会暨集脉电商节 时间&#xff1a;2024年08月28-30日 地点&#xff1a;杭州国际博览中心&#xff08;G20&#xff09; 主办单位&#xff1a;浙江集脉展览有限公司、杭州华维展览有限公司 承办单位&#xff1a;浙江集脉展览有限公司 报名参展&#xf…

测试几个 ocr 对日语的识别情况

测试几个 ocr 对日语的识别情况 1. EasyOCR2. PaddleOCR3. Deepdoc&#xff08;识别pdf中图片&#xff09;4. Deepdoc&#xff08;识别pdf中文字&#xff09;5. Nvidia neva-22b6. Claude 3.5 sonnet 识别图片中的文字7. Claude 3.5 sonnet 识别 pdf 中表格8. OpenAI gpt-4o 识…

网页计算器的实现

简介 该项目实现了一个功能完备、交互友好的网页计算器应用。只使用了 HTML、CSS 和 JavaScript &#xff0c;用于检验web前端基础水平。 开发环境&#xff1a;Visual Studio Code开发工具&#xff1a;HTML5、CSS3、JavaScript实现效果 功能设计和模块划分 显示模块&#…

anaconda命令大全

目录 查看所有虚拟环境查看某虚拟环境安装的包创建虚拟环境激活创建好的虚拟环境回到之前的环境删除创建的虚拟环境查看conda所在的位置、虚拟环境位置等信息conda修改虚拟环境所在的位置 查看所有虚拟环境 conda env list查看某虚拟环境安装的包 激活要查看的虚拟环境之后&a…

Android 性能优化之启动优化

文章目录 Android 性能优化之启动优化启动状态冷启动温启动热启动 耗时检测检测手段TraceView使用方式缺点 Systrace环境配置使用方式TraceView和Systrace比较 AOP统计耗时环境配置使用 优化白屏优化异步加载优化环境配置使用 延迟加载优化AppStartup 源码下载 Android 性能优化…

Reid系列论文学习——无人机场景下基于 Transformer 的轻量化行人重识别

今天介绍的一篇论文是针对无人机场景下的行人重识别&#xff0c;论文题目为&#xff1a;"无人机场景下基于 Transformer 的轻量化行人重识别"。该论文针对无人机场景下行人呈现多角度多尺度的特点、以及传统CNN网络在行人重识别任务中受限于感受野和下采样导致的无法…

关于汽车软件测试的几点想法

如果你有过汽车行业的从业经验&#xff0c;你就应该知道&#xff0c;过去汽车行业只做测试&#xff0c;而不做开发。汽车制造商的主要任务&#xff08;从工程角度看&#xff09;是将来自数百家供应商的数千个零部件组装在一起。考虑到现代软件的复杂性和客户的“挑剔”&#xf…

Rufus 制作启动盘 | 便携的工作空间

唠唠闲话 最近服务器硬盘故障多&#xff0c;在修复过程中&#xff0c;学习了一些操作&#xff0c;这里做个记录。本期主要介绍 U盘启动盘的制作&#xff0c;以及持久化存储。 U 盘启动盘 镜像选择 Ubuntu 的版本命名遵循 “Adjective Animal” 的模式&#xff0c;即 “形容…

新港海岸NCS8822 低功耗DP转VGA 分辨率支持1920*1200*60HZ

NCS8822描述&#xff1a; NCS8822是一个低功耗显示端口到vga转换器。NCS8822集成了一个与DP1.2兼容的接收器和一个高速三通道视频DAC。对于DP1.2输入&#xff0c;NCS8822支持1车道/2车道&#xff0c;也支持车道交换功能。对于VGA输出NCS8822&#xff0c;在60Hz帧率下对WUXGA&a…

C++ 栈-队列-优先级队列

目录 1 栈 2 队列 3 deque 介绍 4 优先级队列 5 反向迭代器 栈也是我们在C语言就模拟实现过的一种数据结构&#xff0c;在C中&#xff0c;栈其实和我们前面模拟实现过的string、vector等容器有一点区别&#xff0c;站起是不是容器&#xff0c;而是一种容器适配器&#xff0c;我…

k8s record 20240705

k8s 安全管理 request 是1g&#xff0c;你得不到要求&#xff0c;我就不创建了&#xff0c;这就是准入控制二次校验 SA就是serviceAccount。 内部是SA和 token, 外部用户进来就是 .kube/config文件 namespace下的是role&#xff0c;整个集群是 ClusterRole. 动作就是Binding li…

pytest-rerunfailures:优化测试稳定性的失败重试工具

笔者在执行自动化测试用例时&#xff0c;会发现有时候用例失败并非代码问题&#xff0c;而是由于服务正在发版&#xff0c;导致请求失败&#xff0c;从而降低了自动化用例的稳定性&#xff0c;最后还要花时间定位到底是自身case的原因还是业务逻辑问题&#xff0c;还是其他原因…

适合家居建材企业的CRM系统盘点(2024版)

当前&#xff0c;CRM市场上&#xff0c;国际巨头的市场优势正在逐渐减弱&#xff0c;国内CRM企业奋起追赶&#xff0c;呈现出强劲的崛起势头。因此&#xff0c;对于家居建材企业来讲&#xff0c;在进行CRM选型时&#xff0c;如何选择一款合适的系统是关乎企业高效发展的重要课题…