跳到內容

架構

Self-Attention(自注意力機制)

Self-Attention

讓序列中每個 token 觀察其他所有 token、判斷哪些最相關的機制,是 Transformer 的核心運算。

登入以收藏
Self-attention(自注意力)是讓模型一次衡量序列中所有位置之間關係的運算。對每個 token,模型會計算三個向量——query(查詢)、key(鍵)、value(值),用 query 和 key 的內積算出「該 token 該關注其他 token 多少」的分數,再用這些分數加權組合 value,產生一個帶有上下文資訊的新表示。 這項機制之所以重要,是因為它是現代 LLM 的核心引擎。在 self-attention 出現之前,RNN 和 LSTM 必須逐字處理序列,難以捕捉長距離依賴。Self-attention 則能平行讀完整個句子,既適合 GPU 加速,又能輕鬆連結相距很遠的詞——這正是 2017 年〈Attention Is All You Need〉論文徹底改寫整個領域的原因。 舉個具體例子:「獎盃放不進行李箱,因為它太大了」這句話裡,是 self-attention 幫模型判斷「它」指的是獎盃而不是行李箱。每個詞的表示,都會根據它最關注的其他詞重新融合資訊。 實務上模型會使用 *multi-head*(多頭)self-attention,讓多組注意力同時運作,不同 head 可以分別專注於語法、指代等不同面向。GPT 這類 decoder 模型還會用 causal(因果遮罩)self-attention,避免 token 在訓練時偷看未來位置。 延伸閱讀:Transformer、multi-head attention、query/key/value、positional encoding、KV cache、cross-attention。

最後更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more