跳到内容

架构

Transformer

Google 在 2017 年提出的神经网络架构,靠 self-attention 并行处理序列,是 GPT、Claude 等大语言模型的基础。

登入以收藏
Transformer 是 Google 研究团队在 2017 年论文《Attention Is All You Need》中提出的神经网络架构。它的核心是 **self-attention(自注意力)**:不像旧的 RNN 必须一个字一个字按顺序读,Transformer 让序列里每个 token 都能同时"看到"其他所有 token,并判断哪些对自己最重要。 这个设计最大的好处是可以在 GPU 上高度并行计算,让模型规模能扩展到数十亿甚至上万亿参数。今天几乎所有主流大语言模型——GPT、Claude、Gemini、LLaMA——都是 Transformer 或其变体;它也延伸到图像(Vision Transformer)、语音(Whisper)和代码模型。 一个直观的比喻:读"奖杯放不进行李箱,因为它太大了"这句话时,self-attention 让模型能同时扫视整句话,把"它"对应到"奖杯"而不是"行李箱"。 原始 Transformer 有 encoder(读输入)和 decoder(生成输出)两部分,但现在多数 LLM 都是 **decoder-only** 结构,纯粹做下一个 token 预测。主要弱点是 attention 的计算量与序列长度成平方关系,所以长 context 很烧钱,业界也持续研究更高效的 attention 变体。 延伸阅读:self-attention、multi-head attention、positional encoding、decoder-only、GPT、BERT。

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more