技术
推测式解码 (Speculative decoding)
Speculative decoding
用小模型先预测几个 token、大模型一次验证的推理加速技巧,能在不损失质量下让 LLM 生成快 2-3 倍。
技术
Speculative decoding
用小模型先预测几个 token、大模型一次验证的推理加速技巧,能在不损失质量下让 LLM 生成快 2-3 倍。
We use cookies
Anonymous analytics help us improve the site. You can opt out anytime. Learn more