跳到内容

架构

状态空间模型(Mamba)

State-Space Model (Mamba)

一种用隐藏状态压缩序列信息的模型架构,计算量随长度线性增长,是 Transformer 注意力机制的替代方案。

登入以收藏
状态空间模型(SSM)是一类序列模型架构,通过一个持续更新的"隐藏状态"逐个处理输入 token,工作方式类似经典控制系统或 RNN。Mamba 是 Albert Gu 和 Tri Dao 在 2023 年底提出的变体,首次让 SSM 在语言建模上能与 Transformer 正面竞争。 它的卖点在于效率。Transformer 的注意力机制需要每个 token 与其他所有 token 两两比较,计算量随序列长度呈平方增长;而 Mamba 的计算量和显存占用是线性增长。对于 DNA 序列、音频波形、百万 token 级长文档来说,成本因此大幅降低。Mamba 的关键技巧是"选择性机制":状态更新的参数会根据输入内容变化,模型可以自行决定哪些信息留在压缩状态里、哪些可以忘掉。 打个比方,Transformer 像把整本书摊开在桌上、每读一个字都回头扫一遍所有页的读者;SSM 则是边读边在脑中记摘要的读者——维护成本低,但摘要本身得够好。Mamba 的选择性机制就是让摘要变好的关键。 实际应用中,你会在长上下文研究模型、混合架构(如将 Mamba 层与注意力结合的 Jamba),以及基因组学、音频等长序列领域见到它。纯 SSM 在某些需要精确检索的任务上仍逊于顶尖 Transformer,因此混合架构很流行。 延伸阅读:Transformer、注意力机制、RNN、线性注意力、Jamba、长上下文模型。

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more