跳到内容

架构

Self-Attention(自注意力机制)

Self-Attention

让序列中每个 token 观察其他所有 token、判断哪些最相关的机制,是 Transformer 的核心运算。

登入以收藏
Self-attention(自注意力)是让模型一次性衡量序列中所有位置之间关系的运算。对每个 token,模型会计算三个向量——query(查询)、key(键)、value(值),用 query 和 key 的内积算出「该 token 该关注其他 token 多少」的分数,再用这些分数加权组合 value,得到带上下文信息的新表示。 这个机制之所以重要,是因为它是现代 LLM 的核心引擎。在 self-attention 出现之前,RNN 和 LSTM 只能逐字处理序列,难以捕捉长距离依赖。Self-attention 则能并行读完整个句子,既适合 GPU 加速,又能轻松连接相距很远的词——这正是 2017 年〈Attention Is All You Need〉论文彻底改写整个领域的原因。 举个具体例子:「奖杯放不进行李箱,因为它太大了」这句话里,正是 self-attention 帮模型判断「它」指的是奖杯而不是行李箱。每个词的表示都会根据它最关注的其他词重新融合信息。 实际中模型会使用 *multi-head*(多头)self-attention,让多组注意力并行运行,不同 head 可以分别专注于语法、指代等不同方面。GPT 这类 decoder 模型还会用 causal(因果掩码)self-attention,防止 token 在训练时偷看未来位置。 延伸阅读:Transformer、multi-head attention、query/key/value、positional encoding、KV cache、cross-attention。

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more

Self-Attention(自注意力机制) · BuilderWorld