量化 (Quantization)

把模型權重從 16/32 位元浮點數壓成 8/4/2 位元，大幅減少記憶體使用並加快推理速度的技術。

Quantization（量化）就是用更少 bit 儲存模型權重。一個 70B 參數的模型在 16-bit（BF16）是 140 GB，量化到 4-bit 變 35 GB，可以塞進一張高階消費級 GPU。推理速度通常也會提升，因為記憶體頻寬常常是瓶頸。它重要的原因是：用全精度跑前緣模型需要昂貴硬體。Quantization 讓你能在 Mac Studio 跑 Llama 3 70B、在 24GB RTX 4090 上塞 Qwen 2.5 32B、甚至在手機上跑小模型。對自架和 edge 部署來說，這是「能跑」與「跑不起來」的差別。 Trade-off 是品質會掉一點。INT8 基本上免費（量化前後的 benchmark 看不出差別）。4-bit（GPTQ、AWQ、GGUF Q4）約 4× 壓縮，大部分品質保留。2-bit 和 1.58-bit 是研究等級——對某些模型可行、對其他模型會壞掉。舉個例子：ollama 和 LM Studio 預設用 Q4_K_M GGUF 量化——4-bit 權重，敏感層用 6-bit。Benchmark 通常比全精度版掉 1-3%，但同一張 GPU 能跑大很多的模型。延伸閱讀：GGUF、AWQ、GPTQ、INT8、distillation。