用 LoRA 在本機微調 Llama 3 70B

兩年前在家裡微調 70B 參數模型還是科幻情節。2026 年,有了 QLoRA、FlashAttention-3、出貨 48GB VRAM 的消費級 GPU,這是個週末就做得完的專案 —— 只要你有耐心搞懂各個零件。

這篇是端到端實務。需要什麼硬體、資料格式、實際能跑的超參數值,以及如果你不被警告會吃掉週末的失敗模式。

目標:拿 Llama 3.3 70B Instruct,用 LoRA 適配到你的領域(法律、醫療、客服、什麼都好)。最後會拿到一個小 adapter 檔(~200MB),推論時掛回 base model 上。

硬體:實際需要什麼

2026 年 QLoRA 70B 的誠實最低需求:

GPU: 1× NVIDIA RTX 5090(32GB)或 1× RTX 6000 Pro Blackwell(96GB)。5090 只能跑 QLoRA 而且很緊。6000 Pro 是舒服選項,full LoRA 跟長序列都跑得動。
記憶體: 系統 RAM 至少 64GB。128GB 在 data loading 時順很多。
硬碟: base model checkpoint、資料集、中間 checkpoint 加起來要 250GB 空閒,強烈建議 NVMe。
OS: Linux(Ubuntu 24.04 最佳)。WSL2 能用但效能掉 10-20%。Windows 原生 —— 別試。

沒硬體:RunPod 租 A100 80GB 約 $1.50/hr,H100 約 $2.50/hr。70B 微調在 H100 上一般跑 4-12 小時,總成本 $10-30。

第一次微調最常犯的錯:資料不夠,或格式錯。

格式。 2026 標準是 JSONL,每行一個 messages 陣列,OpenAI 風格:

{"messages": [{"role": "system", "content": "..."}, {"role": "user", "content": "..."}, {"role": "assistant", "content": "..."}]}

一行一個 example。Axolotl 跟 Unsloth 直接吃這個格式。

大小。 經驗法則:

第一個專案,1,000-3,000 個高品質 example 永遠贏 50,000 個普通的。

品質比數量重要。 1,000 個人工策展的好答案,教模型的東西遠多於 50,000 個 LLM 生成、看起來都微妙地一樣的 example。

四個東西:

本文用 Unsloth。

70B LoRA 實際能跑的值:

LoRA rank(r): 窄任務用 16,廣域適配用 32 或 64。越高 = 容量越大、VRAM 越多、訓練越慢。從 16 開始。
LoRA alpha: rank 的 2 倍。r=16 就 alpha=32。控制 LoRA 更新的縮放。
目標模組: q_proj、k_proj、v_proj、o_proj、gate_proj、up_proj、down_proj(所有 linear 層)。2024 年的指南只訓 attention,2025+ 研究顯示 MLP 也訓會明顯提升。
Learning rate: LoRA 用 2e-4,QLoRA 用 1e-4。loss 爆掉就減半,loss 一直平就加倍試一次。
Batch size: 每張 GPU 1,gradient_accumulation_steps 設 8-16。等效 batch size 8-16 是甜蜜點。
Epochs: 1-3。小資料集跑太多 epoch = overfit。盯 eval loss,不掉了就停。
Max seq length: 從 2048 開始,越長 VRAM 越多。資料需要才加。
Warmup steps: 總步數 5-10%,避免一開始 loss 爆衝。

2,000 個 example 的 Llama 3.3 70B QLoRA 微調,單張 H100:

Loss 數字是參考 —— 真正重要的是模型在你真實測試 prompt 上的行為有沒有變。

不要相信 loss 曲線。準備一份 30-50 個沒拿去訓練的 hold-out 測試集,把 base model 跟微調後的模型輸出並排比較。如果在你的真實領域上微調版本沒有「肉眼可見」變好,問題就是資料集,不是訓練。

要看的東西:

LoRA 部分緩解了這個 —— base 權重沒被動 —— 但推論時 adapter 合併後,跟你微調集差異大的任務還是可能 regression。

緩解:

混入通用資料。 訓練資料 10-20% 應該是通用 instruction-following 資料(Tulu、OpenAssistant 抽樣),保留廣域能力。
降低 rank。 rank 越高 = 適配越激進 = forgetting 風險越大。窄任務 r=16 比 r=64 安全。
不要過訓。 盯 eval loss,不掉了就停。

大部分「我應該微調這個」的直覺都是錯的。先試這些:

微調時機:(a) 你需要 prompt 強制不了的一致輸出格式,(b) 隱私 / 合規理由要把權重留在本地,(c) prompt 在你特定任務上撞品質天花板而且你有資料能突破。

adapter 訓好之後兩條路:

2026 年要 serving,vLLM + 合併模型是 production 級選擇。Self-host vLLM 有專文。

Unsloth GitHub 範例目錄。
QLoRA: Efficient Finetuning of Quantized LLMs(Dettmers et al, 2023)。
DoRA: Weight-Decomposed Low-Rank Adaptation —— 2024 LoRA 後繼,品質略好。
查這些詞:catastrophic forgetting、parameter-efficient fine-tuning、LoRA vs DoRA、axolotl config 範例。