文献阅读：Mamba: Linear-Time Sequence Modeling with Selective State Spaces

文献阅读：Mamba: Linear-Time Sequence Modeling with Selective State Spaces
- 1. 文章简介
- 2. 方法介绍
  - 1. State Space Models
  - 2. Selective State Space Models
- 3. 实验考察 & 结论
  - 1. 简单问题上的验证
  - 2. 实际场景效果
    - 1. 语言模型
    - 2. DNA模型
    - 3. 语音模型
  - 3. 细节考察
    - 1. 速度和内存考察
    - 2. 消融实验
- 4. 结论 & 思考

文献链接：https://arxiv.org/pdf/2312.00752.pdf
GitHub链接：https://github.com/state-spaces/mamba

1. 文章简介

这篇文章23年12月普林斯顿的一篇文章，文中提出了一个Mamba的模型结构，尝试挑战了一下Transformer的霸权地位。

众所周知，自从BERT和GPT分别在NLP任务以及生成任务上展现出绝对的统治力之后，transformer框架的模型同时开始进军CV和ASR领域，不断在各个领域当中出圈，大有一统天下的趋势。

不过，针对Transformer框架的挑战也是一直存在，从简单的对于Transformer框架中self attention结构的计算量优化到尝试复兴RNN的RetNet等等，整体的思路前者基本就是希望减少self attention的计算量从而使得可以容纳的context窗口长度，而后者干脆就回到RNN的框架来完全舍弃掉窗口的设置，通过设置并行训练的方式来修改掉RNN只能串行训练的问题。

这里，Mamba走的也是后者这个路线，完全舍弃掉了self-attention的框架，使用文中提到的state space model的框架来进行实现。

文中宣称：

Mamba模型不但可以无视掉context长度限制进行任意长文本的生成，还可以并行高速地训练，甚至有着很好的可扩展性，可以容纳大量参数，和transformer一样，在大数据预训练的框架下依然没有看到效果的瓶颈。

更牛逼的是，这篇文章的作者几乎是一己之力推着这个模型框架往前走，最早是一个S4的模型框架，然后优化成了H3的结果，到现在的Mamba，都是同一个团队沿着同一条路子走下来的，也是牛逼的厉害。不过可惜的是S4和H3那两篇文章我还没看过，所以这里对于Mamba的结构理解多少还有一点难度，后面会找时间去把剩下那两篇文章也看一下，或许对这个文章会有更好的一个理解。

2. 方法介绍

下面，我们首先来看一下Mamba的具体模型结构。

在这里插入图片描述

整体来说，Mamba的模型结构是在这篇文章的前作中提出的State Space Model（SSM）的基础上进行优化得到的，加上了选择机制并使之适应GPU的并行加速机制。

因此，我们下面就会遵循稳重的思路首先来看一下State Space Model，然后来看一下文中优化得到的Selective State Space Model，也就是文中的Mamba模型框架。

1. State Space Models

我们首先来考察一下State Space Model（SSM）。

本质上来说，包含输入 $x_t$ 输出 $y_t$ 以及态函数 $h_t$ ，且训练过程可以并行，然后infer过程可以做到迭代串行的模型结构都可以称之为SSM。

下面就是一个SSM的典型case，它参数主要包括4个部分 $(\Delta, A, B, C)$ ，而整体的操作则是包括两个部分：

Discretization

$\begin{aligned} \bar{A} &= exp(\Delta A) \\ \bar{B} &= (\Delta A)^{-1} (exp(\Delta A) - I) (\Delta B) \end{aligned}$
Computation

Computation部分则可以有以下两种等价地表述：
1. 线性recurrence实现
  
  $\begin{aligned} h_t &= \bar{A}h_{t-1} + \bar{B} x_{t} \\ y_t &= C h_t \end{aligned}$
2. 卷积实现
  
  $\begin{aligned} \bar{K} &= (C\bar{B}, C\bar{A}\bar{B}, ... C\bar{A}^k \bar{B}, ...) \\ y &= x \bar{K} \end{aligned}$
通常，我们训练时使用卷积方式进行并行运算，而在infer过程中使用recurrent方式进行实现。

其他主要的SSM的结构主要包括以下一些：

Linear attention (Katharopoulos et al. 2020)
H3 (Dao, Fu, Saab, et al. 2023)
Hyena (Poli et al. 2023)
RetNet (Y. Sun et al. 2023)
RWKV (B. Peng et al. 2023)

2. Selective State Space Models

下面，我们来看一下文中主要的优化结构，即SSSM模型。

如前所述，虽然SSM可以通过recurrent的方式在模型中加入时间信息，但是却并没有content的信息被加入其中，导致对于以summary为代表的一些需要copy的任务当中就很难获得很好的效果，因此文中在SSM的基础上加入了内容的selection，有些类似于attention或者LSTM当中的遗忘门和输出门，负责对前文进行重点选择。

具体的selective部分的示意图和SSSM的为代码逻辑如下：

在这里插入图片描述