状态空间模型（Mamba）

一种用隐藏状态压缩序列信息的模型架构，计算量随长度线性增长，是 Transformer 注意力机制的替代方案。

状态空间模型（SSM）是一类序列模型架构，通过一个持续更新的"隐藏状态"逐个处理输入 token，工作方式类似经典控制系统或 RNN。Mamba 是 Albert Gu 和 Tri Dao 在 2023 年底提出的变体，首次让 SSM 在语言建模上能与 Transformer 正面竞争。它的卖点在于效率。Transformer 的注意力机制需要每个 token 与其他所有 token 两两比较，计算量随序列长度呈平方增长；而 Mamba 的计算量和显存占用是线性增长。对于 DNA 序列、音频波形、百万 token 级长文档来说，成本因此大幅降低。Mamba 的关键技巧是"选择性机制"：状态更新的参数会根据输入内容变化，模型可以自行决定哪些信息留在压缩状态里、哪些可以忘掉。打个比方，Transformer 像把整本书摊开在桌上、每读一个字都回头扫一遍所有页的读者；SSM 则是边读边在脑中记摘要的读者——维护成本低，但摘要本身得够好。Mamba 的选择性机制就是让摘要变好的关键。实际应用中，你会在长上下文研究模型、混合架构（如将 Mamba 层与注意力结合的 Jamba），以及基因组学、音频等长序列领域见到它。纯 SSM 在某些需要精确检索的任务上仍逊于顶尖 Transformer，因此混合架构很流行。延伸阅读：Transformer、注意力机制、RNN、线性注意力、Jamba、长上下文模型。