Self-Attention（自注意力机制）

让序列中每个 token 观察其他所有 token、判断哪些最相关的机制，是 Transformer 的核心运算。

Self-attention（自注意力）是让模型一次性衡量序列中所有位置之间关系的运算。对每个 token，模型会计算三个向量——query（查询）、key（键）、value（值），用 query 和 key 的内积算出「该 token 该关注其他 token 多少」的分数，再用这些分数加权组合 value，得到带上下文信息的新表示。这个机制之所以重要，是因为它是现代 LLM 的核心引擎。在 self-attention 出现之前，RNN 和 LSTM 只能逐字处理序列，难以捕捉长距离依赖。Self-attention 则能并行读完整个句子，既适合 GPU 加速，又能轻松连接相距很远的词——这正是 2017 年〈Attention Is All You Need〉论文彻底改写整个领域的原因。举个具体例子：「奖杯放不进行李箱，因为它太大了」这句话里，正是 self-attention 帮模型判断「它」指的是奖杯而不是行李箱。每个词的表示都会根据它最关注的其他词重新融合信息。实际中模型会使用 *multi-head*（多头）self-attention，让多组注意力并行运行，不同 head 可以分别专注于语法、指代等不同方面。GPT 这类 decoder 模型还会用 causal（因果掩码）self-attention，防止 token 在训练时偷看未来位置。延伸阅读：Transformer、multi-head attention、query/key/value、positional encoding、KV cache、cross-attention。