Decoder（解碼器）

神經網路中負責逐一生成輸出 token 的模組，是 GPT、Claude 等主流大型語言模型的核心架構。

Decoder（解碼器）是 Transformer 架構中負責「產生輸出」的那一半 —— 一次生成一個 token，每個新 token 都根據前面已經生成的內容來預測下一個。它使用 **masked self-attention（遮罩自注意力）**，每個位置只能看到自己前面的內容，這正是讓模型能由左至右逐字生成文字的關鍵。這個概念之所以重要，是因為現今主流的大型語言模型 —— GPT-4、Claude、Llama、Gemini —— 幾乎全部都是「decoder-only」架構。它們捨棄了 2017 年原版 Transformer 的 encoder 部分，只堆疊 decoder block，因為實驗證明：光靠「預測下一個 token」這件事，就足以讓模型學會語言、程式、甚至推理能力。一個直觀的比喻：想像你在寫句子時，只能回頭看已經寫過的字，不能偷看後面。這就是 masked attention 強制的限制。模型讀完 prompt，預測下一個字，加上去，再預測下一個 —— 就像超強版的自動完成。這與 **encoder-only** 模型（例如 BERT，一次讀完整個輸入，用於分類或 embedding）以及 **encoder-decoder** 模型（例如 T5、原版 Transformer，用於翻譯等輸入輸出明確分開的任務）有所不同。延伸閱讀：Transformer、encoder、attention、autoregressive、causal mask、next-token prediction。