技術
推測式解碼 (Speculative decoding)
Speculative decoding
用小模型先預測幾個 token、大模型一次驗證的推理加速技巧,能在不損失品質下讓 LLM 生成快 2-3 倍。
技術
Speculative decoding
用小模型先預測幾個 token、大模型一次驗證的推理加速技巧,能在不損失品質下讓 LLM 生成快 2-3 倍。
We use cookies
Anonymous analytics help us improve the site. You can opt out anytime. Learn more