QLoRA

結合 4-bit 量化與 LoRA 的微調技術,讓你用單張消費級 GPU 也能微調大型模型。

QLoRA(Quantized Low-Rank Adaptation)是一種高效微調技術,先把預訓練 LLM 載入成 4-bit 精度,再在上面訓練一組小型的 LoRA adapter 權重。它由 Tim Dettmers 等人在 2023 年提出,很快就成為在有限硬體上微調開源大模型的標準作法。它的價值在於:傳統上要全量微調一個 65B 的模型,需要數百 GB 的 GPU 記憶體,絕大多數開發者根本碰不到。QLoRA 用一種叫 NF4(NormalFloat 4-bit)的資料型別把凍結的底模壓縮成 4-bit,只用較高精度訓練少量 LoRA 矩陣。原論文展示出,單張 48GB GPU 就能微調 65B 模型,品質還能逼近 16-bit 全量微調。舉個實際例子:假設你想讓 Llama 或 Mistral 學會公司的寫作風格,全量微調得租 A100 叢集;用 Hugging Face PEFT 搭配 bitsandbytes 跑 QLoRA,一張 RTX 4090 開一個晚上就能搞定,訓練出來的 adapter 檔通常不到 100MB。代價是推論速度比未量化模型稍慢,而且過度激進的量化可能在某些任務上掉品質。但對大多數領域適配和指令微調場景,QLoRA 已是最實用的預設選擇。延伸閱讀:LoRA、PEFT、量化、bitsandbytes、fine-tuning、NF4。