Decoder(解碼器)是 Transformer 架構中負責「產生輸出」的那一半 —— 一次生成一個 token,每個新 token 都根據前面已經生成的內容來預測下一個。它使用 **masked self-attention(遮罩自注意力)**,每個位置只能看到自己前面的內容,這正是讓模型能由左至右逐字生成文字的關鍵。 這個概念之所以重要,是因為現今主流的大型語言模型 —— GPT-4、Claude、Llama、Gemini —— 幾乎全部都是「decoder-only」架構。它們捨棄了 2017 年原版 Transformer 的 encoder 部分,只堆疊 decoder block,因為實驗證明:光靠「預測下一個 token」這件事,就足以讓模型學會語言、程式、甚至推理能力。 一個直觀的比喻:想像你在寫句子時,只能回頭看已經寫過的字,不能偷看後面。這就是 masked attention 強制的限制。模型讀完 prompt,預測下一個字,加上去,再預測下一個 —— 就像超強版的自動完成。 這與 **encoder-only** 模型(例如 BERT,一次讀完整個輸入,用於分類或 embedding)以及 **encoder-decoder** 模型(例如 T5、原版 Transformer,用於翻譯等輸入輸出明確分開的任務)有所不同。 延伸閱讀:Transformer、encoder、attention、autoregressive、causal mask、next-token prediction。