狀態空間模型（Mamba）

一種以隱藏狀態壓縮序列資訊的模型架構，運算量隨長度線性成長，是 Transformer 注意力機制的替代方案。

狀態空間模型（SSM）是一類序列模型架構，會以一個持續更新的「隱藏狀態」逐個處理輸入 token，運作方式類似古典控制系統或 RNN。Mamba 是 Albert Gu 與 Tri Dao 於 2023 年底提出的版本，首次讓 SSM 在語言建模上能與 Transformer 一較高下。它的賣點在於效率。Transformer 的注意力機制需要每個 token 與所有其他 token 兩兩比對，運算量隨序列長度呈平方成長；而 Mamba 的計算量與記憶體用量則是線性成長。對於 DNA 序列、音訊波形、百萬 token 等級的長文件來說，成本因此大幅降低。Mamba 的關鍵技巧是「選擇性機制」：狀態更新的參數會根據輸入內容變化，模型可以自行決定哪些資訊要留在壓縮的狀態裡、哪些可以忘掉。打個比方，Transformer 像是把整本書攤開在桌上、每讀一個字都回頭看過所有頁面的讀者；SSM 則是邊讀邊在腦中記摘要的讀者——維護成本低，但摘要本身得夠好。Mamba 的選擇性機制就是讓摘要變好的關鍵。實務上你會在長上下文研究模型、混合架構（如將 Mamba 層與注意力結合的 Jamba），以及基因組學、音訊等長序列領域看到它。純 SSM 在某些需要精確檢索的任務上仍輸給頂尖 Transformer，因此混合架構相當流行。延伸閱讀：Transformer、注意力機制、RNN、線性注意力、Jamba、長上下文模型。