Decoder(解码器)是 Transformer 架构中负责「生成输出」的那一半 —— 每次产出一个 token,每个新 token 都基于前面已生成的内容来预测下一个。它使用 **masked self-attention(掩码自注意力)**,每个位置只能看到前面的内容,这正是让模型能从左到右逐字生成文本的关键。 这个概念之所以重要,是因为如今主流的大语言模型 —— GPT-4、Claude、Llama、Gemini —— 几乎全部都是「decoder-only」架构。它们舍弃了 2017 年原版 Transformer 的 encoder 部分,只堆叠 decoder block,因为实验表明:仅靠「预测下一个 token」这件事,就足以让模型学会语言、代码乃至推理能力。 一个直观的比喻:想象你写句子时只能回头看已经写过的字,不能偷看后面。这就是 masked attention 强制的限制。模型读完 prompt,预测下一个字,加进去,再预测下一个 —— 就像超强版的自动补全。 这和 **encoder-only** 模型(如 BERT,一次性读完整个输入,用于分类或 embedding)以及 **encoder-decoder** 模型(如 T5、原版 Transformer,用于翻译等输入输出明确分离的任务)有明显区别。 延伸阅读:Transformer、encoder、attention、autoregressive、causal mask、next-token prediction。