跳到內容

架構

Attention(注意力機制)

Attention

讓模型在處理每個 token 時,動態判斷其他 token 重要程度的機制。

登入以收藏
Attention(注意力機制)是 Transformer 模型的核心運算:在處理每個 token 時,模型會「看一遍」輸入中的所有其他 token,決定哪些重要、哪些不重要,再依權重把它們混合成新的表示。重要的 token 拿到高權重,不相關的接近零。 它之所以關鍵,是因為現代 LLM 全靠它撐起來。在 attention 之前,RNN 這類模型只能一個字一個字往下讀,距離太遠的詞就很難關聯。Attention 直接打破這個限制——任何 token 都能直接參考序列中的任意位置。2017 年的論文〈Attention Is All You Need〉更證明:根本不需要 RNN,光靠 attention 就夠了。 舉個例子:讀到「獎盃裝不進行李箱,因為它太大了」,你必須判斷「它」指的是獎盃還是行李箱。模型做的就是同一件事——回頭看前面的詞,給每個詞一個權重,藉此解出指代關係。實務上會用 multi-head attention(多頭注意力),同時跑好幾組,不同的 head 各自捕捉語法、指代、主題等不同關係。 GPT、Claude、Gemini 用的都是 self-attention(同一個序列內互相關注);encoder-decoder 架構與多模態模型則會用到 cross-attention。 延伸了解:Transformer、self-attention、multi-head attention、KV cache、context window、positional encoding。

最後更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more