Mamba: 带选择性状态空间的线性时间序列模型
摘要:
当下,给大多数令人兴奋的深度学习方面的应用赋能的基础模型,几乎普遍是基于Transformer 架构和其核心的注意力模块。很多次二次时间复杂度的架构,例如,那些线性注意力、门控卷积和循环模型,还有结构状态空间模型(SSM),已经被开发用来处理长序列上 Transformer 的计算低效问题,但在处理重要的形态问题上,例如语言处理,这些模型的性能都不如 注意力模型那么优秀。我们找到了这类模型的一个重要的缺陷,它们在基于内容的推理上是很无能的,我们这对于此做了几个改进。首先,让SSM的参数做为模型输入内容的函数,