跳到内容

技术

量化 (Quantization)

Quantization

把模型权重从 16/32 位浮点数压成 8/4/2 位,大幅减少内存使用并加快推理速度的技术。

登入以收藏
Quantization(量化)就是用更少 bit 存储模型权重。一个 70B 参数的模型在 16-bit(BF16)是 140 GB,量化到 4-bit 变 35 GB,可以塞进一张高端消费级 GPU。推理速度通常也会提升,因为内存带宽常常是瓶颈。 它重要的原因是:用全精度跑前沿模型需要昂贵硬件。Quantization 让你能在 Mac Studio 跑 Llama 3 70B、在 24GB RTX 4090 上塞 Qwen 2.5 32B、甚至在手机上跑小模型。对自部署和 edge 部署来说,这是「能跑」与「跑不起来」的差别。 Trade-off 是质量会掉一点。INT8 基本上免费(量化前后的 benchmark 看不出差别)。4-bit(GPTQ、AWQ、GGUF Q4)约 4× 压缩,大部分质量保留。2-bit 和 1.58-bit 是研究等级——对某些模型可行、对其他模型会坏掉。 举个例子:ollama 和 LM Studio 默认用 Q4_K_M GGUF 量化——4-bit 权重,敏感层用 6-bit。Benchmark 通常比全精度版掉 1-3%,但同一张 GPU 能跑大很多的模型。延伸阅读:GGUF、AWQ、GPTQ、INT8、distillation。

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more

量化 (Quantization) · BuilderWorld