技术
KV 缓存 (KV cache)
KV cache
Transformer 推理时把过去 token 的 Key/Value tensor 缓存下来、避免每步都重算的机制,也是长 context 吃内存的主因。
技术
KV cache
Transformer 推理时把过去 token 的 Key/Value tensor 缓存下来、避免每步都重算的机制,也是长 context 吃内存的主因。
We use cookies
Anonymous analytics help us improve the site. You can opt out anytime. Learn more