QLoRA

结合 4-bit 量化与 LoRA 的微调技术,让你用单张消费级 GPU 也能微调大模型。

QLoRA(Quantized Low-Rank Adaptation)是一种高效微调技术,先把预训练 LLM 加载成 4-bit 精度,再在其上训练一组小型的 LoRA adapter 权重。它由 Tim Dettmers 等人在 2023 年提出,很快就成为在有限硬件上微调开源大模型的标准做法。它的价值在于:传统上要全量微调一个 65B 模型需要数百 GB 的 GPU 显存,绝大多数开发者根本碰不到。QLoRA 用一种叫 NF4(NormalFloat 4-bit)的数据类型把冻结的底模压缩成 4-bit,只用较高精度训练少量 LoRA 矩阵。原论文展示了单张 48GB GPU 就能微调 65B 模型,质量还能逼近 16-bit 全量微调。举个实际例子:假设你想让 Llama 或 Mistral 学会公司的写作风格,全量微调得租 A100 集群;用 Hugging Face PEFT 搭配 bitsandbytes 跑 QLoRA,一张 RTX 4090 开一晚就能搞定,训练出来的 adapter 文件通常不到 100MB。代价是推理速度比未量化模型略慢,过度激进的量化在某些任务上也会掉点。但对大多数领域适配和指令微调场景,QLoRA 已是最实用的默认选择。延伸阅读:LoRA、PEFT、量化、bitsandbytes、fine-tuning、NF4。