Decoder（解码器）

神经网络中负责逐个生成输出 token 的模块，是 GPT、Claude 等主流大语言模型的核心架构。

Decoder（解码器）是 Transformer 架构中负责「生成输出」的那一半 —— 每次产出一个 token，每个新 token 都基于前面已生成的内容来预测下一个。它使用 **masked self-attention（掩码自注意力）**，每个位置只能看到前面的内容，这正是让模型能从左到右逐字生成文本的关键。这个概念之所以重要，是因为如今主流的大语言模型 —— GPT-4、Claude、Llama、Gemini —— 几乎全部都是「decoder-only」架构。它们舍弃了 2017 年原版 Transformer 的 encoder 部分，只堆叠 decoder block，因为实验表明：仅靠「预测下一个 token」这件事，就足以让模型学会语言、代码乃至推理能力。一个直观的比喻：想象你写句子时只能回头看已经写过的字，不能偷看后面。这就是 masked attention 强制的限制。模型读完 prompt，预测下一个字，加进去，再预测下一个 —— 就像超强版的自动补全。这和 **encoder-only** 模型（如 BERT，一次性读完整个输入，用于分类或 embedding）以及 **encoder-decoder** 模型（如 T5、原版 Transformer，用于翻译等输入输出明确分离的任务）有明显区别。延伸阅读：Transformer、encoder、attention、autoregressive、causal mask、next-token prediction。