微調 (Fine-tuning)

在預訓練模型基礎上，用較小的專屬資料集繼續訓練，讓模型適應特定領域或任務。

微調是指拿一個已經預訓練好的模型（如 Llama、GPT 或 BERT），在一份規模小得多、針對特定任務或領域的資料集上繼續訓練。模型保留原本的通用語言能力，但權重會被調整去專精某件事。這件事重要的原因是：從零訓練一個基礎模型動輒花費數百萬美元，但微調往往只需要幾千筆資料、幾小時就能完成。企業就是用這種方式，把通用 LLM 改造成符合自家口吻的客服機器人、醫療摘要助理，或是讀得懂內部 codebase 的程式助手。ChatGPT、Claude 這類聊天助理之所以「聽話」，背後也是透過 RLHF（人類回饋強化學習）這種特殊的微調流程訓練出來的。打個比方：預訓練模型像一個剛畢業的大學生，什麼都懂一點；微調就是上班後的在職訓練，把他訓練成法務助理、放射科醫師或 Python code reviewer。他不需要重新學中文，只是學會了新角色的工作模式。實務上，「全參數微調」會更新整個模型的權重，成本很高。現在多數團隊改用 LoRA、QLoRA 這類參數高效方法，凍結原模型、只訓練小型 adapter 層，便宜又方便切換。其實很多場景用 prompt engineering 或 RAG 就夠了，微調通常是最後手段——用在你需要穩定的輸出風格、固定格式，或 prompt 無法可靠喚出的領域知識時。延伸閱讀：LoRA、RLHF、instruction tuning、transfer learning、RAG、預訓練。