多头注意力 (Multi-head attention)

Transformer 中的核心机制,并行执行多组注意力运算,让模型同时关注输入中不同层面的关系。

多头注意力是让 Transformer 运作的核心组件。模型不是只计算一组注意力,而是把表征向量切成多个「头(head)」,每个头并行执行各自的注意力运算,最后再把结果拼接起来。每个头会学到关注不同类型的关系。它之所以重要,是因为语言中同时存在多种结构——语法、指代、主题、语气——单一的注意力分布很难全部捕捉。每个头都有自己的 Query、Key、Value 投影,可以分别处理短距离的词序、长距离的主谓一致、或语义相似度。这正是 GPT、Claude、BERT 这类模型灵活的关键所在。打个比方:想象你读一个句子时手上有好几支荧光笔,一支标代词和它指代的对象,一支标动词和宾语,一支标情绪词。多头注意力就是模型同时做所有这些标记再汇总。研究发现训练好的 Transformer 中,不同的头确实会自然分工——有的追踪位置模式,有的负责特定的语法角色。最初的《Attention Is All You Need》用了 8 个头,现代大模型则用 16 到 128 个不等。后来的 MQA(multi-query)、GQA(grouped-query)等变体让多个头共享 Key/Value 来省显存,已成为 Llama 等模型推理时的标配。延伸阅读:self-attention、Transformer、Q/K/V、GQA、attention head。