多頭注意力 (Multi-head attention)

Transformer 中的核心機制,平行執行多組注意力運算,讓模型同時關注輸入中不同層面的關係。

多頭注意力是讓 Transformer 運作的核心元件。模型不是只計算一組注意力,而是把表徵向量切成多個「頭(head)」,每個頭平行執行各自的注意力運算,最後再把結果拼接起來。每個頭會學到關注不同類型的關係。它之所以重要,是因為語言中同時存在多種結構——語法、指代、主題、語氣——單一的注意力分布很難全部捕捉。每個頭都有自己的 Query、Key、Value 投影,可以分別處理短距離的詞序、長距離的主謂一致、或語意相似度。這正是 GPT、Claude、BERT 這類模型靈活的關鍵所在。打個比方:想像你讀一個句子時手上有好幾支螢光筆,一支標代名詞和它指的對象,一支標動詞和受詞,一支標情緒字眼。多頭注意力就是模型同時做所有這些標記再彙整。研究發現訓練好的 Transformer 中,不同的頭確實會自然分工——有的追蹤位置模式,有的負責特定的文法角色。最初〈Attention Is All You Need〉用 8 個頭,現代大型模型則用 16 到 128 個不等。後來的 MQA(multi-query)、GQA(grouped-query)等變體會讓多個頭共用 Key/Value 來省記憶體,已成為 Llama 等模型推論時的標配。延伸閱讀:self-attention、Transformer、Q/K/V、GQA、attention head。