架构
Self-Attention(自注意力机制)
Self-Attention
让序列中每个 token 观察其他所有 token、判断哪些最相关的机制,是 Transformer 的核心运算。
架构
Self-Attention
让序列中每个 token 观察其他所有 token、判断哪些最相关的机制,是 Transformer 的核心运算。
We use cookies
Anonymous analytics help us improve the site. You can opt out anytime. Learn more