跳到內容

技術

量化 (Quantization)

Quantization

把模型權重從 16/32 位元浮點數壓成 8/4/2 位元,大幅減少記憶體使用並加快推理速度的技術。

登入以收藏
Quantization(量化)就是用更少 bit 儲存模型權重。一個 70B 參數的模型在 16-bit(BF16)是 140 GB,量化到 4-bit 變 35 GB,可以塞進一張高階消費級 GPU。推理速度通常也會提升,因為記憶體頻寬常常是瓶頸。 它重要的原因是:用全精度跑前緣模型需要昂貴硬體。Quantization 讓你能在 Mac Studio 跑 Llama 3 70B、在 24GB RTX 4090 上塞 Qwen 2.5 32B、甚至在手機上跑小模型。對自架和 edge 部署來說,這是「能跑」與「跑不起來」的差別。 Trade-off 是品質會掉一點。INT8 基本上免費(量化前後的 benchmark 看不出差別)。4-bit(GPTQ、AWQ、GGUF Q4)約 4× 壓縮,大部分品質保留。2-bit 和 1.58-bit 是研究等級——對某些模型可行、對其他模型會壞掉。 舉個例子:ollama 和 LM Studio 預設用 Q4_K_M GGUF 量化——4-bit 權重,敏感層用 6-bit。Benchmark 通常比全精度版掉 1-3%,但同一張 GPU 能跑大很多的模型。延伸閱讀:GGUF、AWQ、GPTQ、INT8、distillation。

最後更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more

量化 (Quantization) · BuilderWorld