Transformer

Google 在 2017 年提出的神经网络架构，靠 self-attention 并行处理序列，是 GPT、Claude 等大语言模型的基础。

Transformer 是 Google 研究团队在 2017 年论文《Attention Is All You Need》中提出的神经网络架构。它的核心是 **self-attention（自注意力）**：不像旧的 RNN 必须一个字一个字按顺序读，Transformer 让序列里每个 token 都能同时"看到"其他所有 token，并判断哪些对自己最重要。这个设计最大的好处是可以在 GPU 上高度并行计算，让模型规模能扩展到数十亿甚至上万亿参数。今天几乎所有主流大语言模型——GPT、Claude、Gemini、LLaMA——都是 Transformer 或其变体；它也延伸到图像（Vision Transformer）、语音（Whisper）和代码模型。一个直观的比喻：读"奖杯放不进行李箱，因为它太大了"这句话时，self-attention 让模型能同时扫视整句话，把"它"对应到"奖杯"而不是"行李箱"。原始 Transformer 有 encoder（读输入）和 decoder（生成输出）两部分，但现在多数 LLM 都是 **decoder-only** 结构，纯粹做下一个 token 预测。主要弱点是 attention 的计算量与序列长度成平方关系，所以长 context 很烧钱，业界也持续研究更高效的 attention 变体。延伸阅读：self-attention、multi-head attention、positional encoding、decoder-only、GPT、BERT。