量化 (Quantization)

把模型权重从 16/32 位浮点数压成 8/4/2 位，大幅减少内存使用并加快推理速度的技术。

Quantization（量化）就是用更少 bit 存储模型权重。一个 70B 参数的模型在 16-bit（BF16）是 140 GB，量化到 4-bit 变 35 GB，可以塞进一张高端消费级 GPU。推理速度通常也会提升，因为内存带宽常常是瓶颈。它重要的原因是：用全精度跑前沿模型需要昂贵硬件。Quantization 让你能在 Mac Studio 跑 Llama 3 70B、在 24GB RTX 4090 上塞 Qwen 2.5 32B、甚至在手机上跑小模型。对自部署和 edge 部署来说，这是「能跑」与「跑不起来」的差别。 Trade-off 是质量会掉一点。INT8 基本上免费（量化前后的 benchmark 看不出差别）。4-bit（GPTQ、AWQ、GGUF Q4）约 4× 压缩，大部分质量保留。2-bit 和 1.58-bit 是研究等级——对某些模型可行、对其他模型会坏掉。举个例子：ollama 和 LM Studio 默认用 Q4_K_M GGUF 量化——4-bit 权重，敏感层用 6-bit。Benchmark 通常比全精度版掉 1-3%，但同一张 GPU 能跑大很多的模型。延伸阅读：GGUF、AWQ、GPTQ、INT8、distillation。