技術
KV 快取 (KV cache)
KV cache
Transformer 推理時把過去 token 的 Key/Value tensor 快取下來、避免每步都重算的機制,也是長 context 吃記憶體的主因。
技術
KV cache
Transformer 推理時把過去 token 的 Key/Value tensor 快取下來、避免每步都重算的機制,也是長 context 吃記憶體的主因。
We use cookies
Anonymous analytics help us improve the site. You can opt out anytime. Learn more