跳到內容

架構

狀態空間模型(Mamba)

State-Space Model (Mamba)

一種以隱藏狀態壓縮序列資訊的模型架構,運算量隨長度線性成長,是 Transformer 注意力機制的替代方案。

登入以收藏
狀態空間模型(SSM)是一類序列模型架構,會以一個持續更新的「隱藏狀態」逐個處理輸入 token,運作方式類似古典控制系統或 RNN。Mamba 是 Albert Gu 與 Tri Dao 於 2023 年底提出的版本,首次讓 SSM 在語言建模上能與 Transformer 一較高下。 它的賣點在於效率。Transformer 的注意力機制需要每個 token 與所有其他 token 兩兩比對,運算量隨序列長度呈平方成長;而 Mamba 的計算量與記憶體用量則是線性成長。對於 DNA 序列、音訊波形、百萬 token 等級的長文件來說,成本因此大幅降低。Mamba 的關鍵技巧是「選擇性機制」:狀態更新的參數會根據輸入內容變化,模型可以自行決定哪些資訊要留在壓縮的狀態裡、哪些可以忘掉。 打個比方,Transformer 像是把整本書攤開在桌上、每讀一個字都回頭看過所有頁面的讀者;SSM 則是邊讀邊在腦中記摘要的讀者——維護成本低,但摘要本身得夠好。Mamba 的選擇性機制就是讓摘要變好的關鍵。 實務上你會在長上下文研究模型、混合架構(如將 Mamba 層與注意力結合的 Jamba),以及基因組學、音訊等長序列領域看到它。純 SSM 在某些需要精確檢索的任務上仍輸給頂尖 Transformer,因此混合架構相當流行。 延伸閱讀:Transformer、注意力機制、RNN、線性注意力、Jamba、長上下文模型。

最後更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more