架構
多頭注意力 (Multi-head attention)
Multi-head attention
Transformer 中的核心機制,平行執行多組注意力運算,讓模型同時關注輸入中不同層面的關係。
架構
Multi-head attention
Transformer 中的核心機制,平行執行多組注意力運算,讓模型同時關注輸入中不同層面的關係。
We use cookies
Anonymous analytics help us improve the site. You can opt out anytime. Learn more