跳到內容

架構

Transformer

Google 在 2017 年提出的神經網路架構,靠 self-attention 平行處理序列,是 GPT、Claude 等大型語言模型的基礎。

登入以收藏
Transformer 是 Google 研究團隊在 2017 年論文《Attention Is All You Need》中提出的神經網路架構。它的核心是 **self-attention(自注意力)**:不像舊的 RNN 必須一個字一個字依序讀,Transformer 讓序列裡每個 token 都能同時「看到」其他所有 token,並判斷哪些對自己最重要。 這個設計最大的好處是可以在 GPU 上高度平行運算,讓模型規模能擴展到數十億甚至上兆參數。今天幾乎所有主流大型語言模型——GPT、Claude、Gemini、LLaMA——都是 Transformer 或其變體;它也延伸到影像(Vision Transformer)、語音(Whisper)和程式碼模型。 一個直覺的比喻:讀「獎盃放不進行李箱,因為它太大了」這句話時,self-attention 讓模型能同時掃視整句話,把「它」對應到「獎盃」而不是「行李箱」。 原始 Transformer 有 encoder(讀輸入)和 decoder(生成輸出)兩部分,但現在多數 LLM 都是 **decoder-only** 結構,純粹做下一個 token 預測。主要弱點是 attention 的計算量與序列長度成平方關係,所以長 context 很燒錢,業界也持續研究更高效的 attention 變體。 延伸閱讀:self-attention、multi-head attention、positional encoding、decoder-only、GPT、BERT。

最後更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more