Attention（注意力機制）

讓模型在處理每個 token 時，動態判斷其他 token 重要程度的機制。

Attention（注意力機制）是 Transformer 模型的核心運算：在處理每個 token 時，模型會「看一遍」輸入中的所有其他 token，決定哪些重要、哪些不重要，再依權重把它們混合成新的表示。重要的 token 拿到高權重，不相關的接近零。它之所以關鍵，是因為現代 LLM 全靠它撐起來。在 attention 之前，RNN 這類模型只能一個字一個字往下讀，距離太遠的詞就很難關聯。Attention 直接打破這個限制——任何 token 都能直接參考序列中的任意位置。2017 年的論文〈Attention Is All You Need〉更證明：根本不需要 RNN，光靠 attention 就夠了。舉個例子：讀到「獎盃裝不進行李箱，因為它太大了」，你必須判斷「它」指的是獎盃還是行李箱。模型做的就是同一件事——回頭看前面的詞，給每個詞一個權重，藉此解出指代關係。實務上會用 multi-head attention（多頭注意力），同時跑好幾組，不同的 head 各自捕捉語法、指代、主題等不同關係。 GPT、Claude、Gemini 用的都是 self-attention（同一個序列內互相關注）；encoder-decoder 架構與多模態模型則會用到 cross-attention。延伸了解：Transformer、self-attention、multi-head attention、KV cache、context window、positional encoding。