Transformer

Google 在 2017 年提出的神經網路架構，靠 self-attention 平行處理序列，是 GPT、Claude 等大型語言模型的基礎。

Transformer 是 Google 研究團隊在 2017 年論文《Attention Is All You Need》中提出的神經網路架構。它的核心是 **self-attention（自注意力）**：不像舊的 RNN 必須一個字一個字依序讀，Transformer 讓序列裡每個 token 都能同時「看到」其他所有 token，並判斷哪些對自己最重要。這個設計最大的好處是可以在 GPU 上高度平行運算，讓模型規模能擴展到數十億甚至上兆參數。今天幾乎所有主流大型語言模型——GPT、Claude、Gemini、LLaMA——都是 Transformer 或其變體；它也延伸到影像（Vision Transformer）、語音（Whisper）和程式碼模型。一個直覺的比喻：讀「獎盃放不進行李箱，因為它太大了」這句話時，self-attention 讓模型能同時掃視整句話，把「它」對應到「獎盃」而不是「行李箱」。原始 Transformer 有 encoder（讀輸入）和 decoder（生成輸出）兩部分，但現在多數 LLM 都是 **decoder-only** 結構，純粹做下一個 token 預測。主要弱點是 attention 的計算量與序列長度成平方關係，所以長 context 很燒錢，業界也持續研究更高效的 attention 變體。延伸閱讀：self-attention、multi-head attention、positional encoding、decoder-only、GPT、BERT。