Self-Attention（自注意力機制）

讓序列中每個 token 觀察其他所有 token、判斷哪些最相關的機制，是 Transformer 的核心運算。

Self-attention（自注意力）是讓模型一次衡量序列中所有位置之間關係的運算。對每個 token，模型會計算三個向量——query（查詢）、key（鍵）、value（值），用 query 和 key 的內積算出「該 token 該關注其他 token 多少」的分數，再用這些分數加權組合 value，產生一個帶有上下文資訊的新表示。這項機制之所以重要，是因為它是現代 LLM 的核心引擎。在 self-attention 出現之前，RNN 和 LSTM 必須逐字處理序列，難以捕捉長距離依賴。Self-attention 則能平行讀完整個句子，既適合 GPU 加速，又能輕鬆連結相距很遠的詞——這正是 2017 年〈Attention Is All You Need〉論文徹底改寫整個領域的原因。舉個具體例子：「獎盃放不進行李箱，因為它太大了」這句話裡，是 self-attention 幫模型判斷「它」指的是獎盃而不是行李箱。每個詞的表示，都會根據它最關注的其他詞重新融合資訊。實務上模型會使用 *multi-head*（多頭）self-attention，讓多組注意力同時運作，不同 head 可以分別專注於語法、指代等不同面向。GPT 這類 decoder 模型還會用 causal（因果遮罩）self-attention，避免 token 在訓練時偷看未來位置。延伸閱讀：Transformer、multi-head attention、query/key/value、positional encoding、KV cache、cross-attention。