跳到内容

架构

Attention(注意力机制)

Attention

让模型在处理每个 token 时,动态判断其他 token 重要程度的机制。

登入以收藏
Attention(注意力机制)是 Transformer 模型的核心运算:在处理每个 token 时,模型会"看一遍"输入中的所有其他 token,决定哪些重要、哪些不重要,再按权重把它们混合成新的表示。重要的 token 拿到高权重,不相关的接近零。 它之所以关键,是因为现代 LLM 全靠它撑起来。在 attention 之前,RNN 这类模型只能一个字一个字往下读,距离太远的词就很难关联。Attention 直接打破了这个限制——任何 token 都可以直接参考序列里的任意位置。2017 年的论文《Attention Is All You Need》更证明:根本不需要 RNN,光靠 attention 就够了。 举个例子:读到"奖杯装不进行李箱,因为它太大了",你必须判断"它"指的是奖杯还是行李箱。模型做的就是同一件事——回头看前面的词,给每个词一个权重,从而解出指代关系。实际中会用 multi-head attention(多头注意力),同时跑好几组,让不同的 head 分别捕捉语法、指代、主题等不同关系。 GPT、Claude、Gemini 用的都是 self-attention(同一个序列内互相关注);encoder-decoder 架构和多模态模型则会用到 cross-attention。 延伸了解:Transformer、self-attention、multi-head attention、KV cache、context window、positional encoding。

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more

Attention(注意力机制) · BuilderWorld