Attention（注意力机制）

让模型在处理每个 token 时，动态判断其他 token 重要程度的机制。

Attention（注意力机制）是 Transformer 模型的核心运算：在处理每个 token 时，模型会"看一遍"输入中的所有其他 token，决定哪些重要、哪些不重要，再按权重把它们混合成新的表示。重要的 token 拿到高权重，不相关的接近零。它之所以关键，是因为现代 LLM 全靠它撑起来。在 attention 之前，RNN 这类模型只能一个字一个字往下读，距离太远的词就很难关联。Attention 直接打破了这个限制——任何 token 都可以直接参考序列里的任意位置。2017 年的论文《Attention Is All You Need》更证明：根本不需要 RNN，光靠 attention 就够了。举个例子：读到"奖杯装不进行李箱，因为它太大了"，你必须判断"它"指的是奖杯还是行李箱。模型做的就是同一件事——回头看前面的词，给每个词一个权重，从而解出指代关系。实际中会用 multi-head attention（多头注意力），同时跑好几组，让不同的 head 分别捕捉语法、指代、主题等不同关系。 GPT、Claude、Gemini 用的都是 self-attention（同一个序列内互相关注）；encoder-decoder 架构和多模态模型则会用到 cross-attention。延伸了解：Transformer、self-attention、multi-head attention、KV cache、context window、positional encoding。