什麼是大型語言模型(LLM)?用人話解釋

Large Language Model(大型語言模型,簡稱 LLM)是 ChatGPT、Claude、Gemini 內部那個東西的技術名稱。聽起來很嚇人,但它運作的原理其實意外地簡單 — 而且理解這件事會改變你用這些工具的方式。

一句話說完

LLM 是一個統計模型,用海量文字訓練出來。給它任何一段文字當輸入,它的工作就是預測下一個 token(大致上等於下一個字或字的一部分)。就這樣。所有其他你看到的東西 — 長篇回答、程式碼、故事、看起來像在推理 — 都是把這一個預測步驟重複幾千次的結果。

當你在 Claude 輸入「用 10 歲小孩聽得懂的方式解釋量子糾纏」,模型會產出一個機率分布,涵蓋每一個可能的下一個 token。它挑一個(挑得有多隨機由 temperature 這個參數控制),接上去,再對這段現在更長的文字做同樣的預測。重複,直到模型預測出「結束」這個 token。整段回答就是一個字接一個字、超級快速的 autocomplete。

這聽起來太簡單,不可能產出連貫的段落。關鍵在於模型訓練的資料量夠大 — 從網路、書、程式碼、論文來的好幾兆個字 — 大到語言的統計結構本身就包含了很多我們稱為「知識」的東西。

為什麼這個原理解釋了一大堆現象

一旦你內化「它在預測下一個 token」,很多奇怪的行為就講得通了。

**為什麼它會幻覺。**模型不知道什麼是真的。它只知道「在這個 context 下,接下來通常會出現什麼樣的東西」。你問一個真實但冷門的法條,它會生出一段看起來像真實法條引用的東西。有時候是真的,有時候不是。模型自己分辨不出來。

**為什麼 prompt 這麼重要。**好的 prompt 把機率分布推往更好的下一個 token。「寫 Python」跟「用 Python 3.12 的 async/await + type hints,參考 FastAPI 官方文件的風格」這兩個指令會把模型導向訓練資料裡完全不同的區域。

為什麼它不會數字母、不會做精確算術。模型看到的世界是 token 不是字元。問 GPT-4「strawberry 有幾個 r」常常答錯,因為 strawberry 在它字彙表裡是一個 token。

**為什麼 context 那麼關鍵。**模型只看得到 context window 裡面的東西。如果你跟它對話很久、超過上限、舊訊息被擠掉了 — 它不是「忘記」,是那些 token 真的不在了。

LLM 是怎麼做出來的

流程有三個階段。

**預訓練(pre-training)**是模型「讀網路」的階段。工程師蒐集巨大的資料集(Common Crawl、書、GitHub、科學文獻),然後讓模型反覆預測被遮起來的下一個 token,直到預測得夠準。這階段燒掉幾百萬美元的 GPU 時間,產出一個「base model」 — 它知道很多東西但完全不會聽指令,你問它一個問題,它會自顧自地把問題變得更長,而不是回答。

**後訓練(post-training)**把 base model 調成有用的東西。團隊餵它好的問答範例(supervised fine-tuning),再用 RLHF(Reinforcement Learning from Human Feedback)或 DPO 之類的技術,訓練它偏好「有用、無害、誠實」的回答,而不是不好的那種。

**推論(inference)**是你實際使用的時候。訓練好的模型住在 GPU 伺服器上,接收你的輸入,生出輸出。每一次查詢的成本比訓練低很多,但乘上幾百萬個 user 還是很貴 — 這就是為什麼 GPT-4 每個 token 的價格比 GPT-3.5 高。

前沿閉源模型 vs 開源權重模型

2026 年的 LLM 大致分兩個層級。

前沿閉源(frontier closed) — Claude(Anthropic)、GPT-5(OpenAI)、Gemini(Google) — 是最強的那一批。只能透過 API 或他們自家 chat 產品取用,模型權重不公開,每次查詢要付錢。

開源權重(open-weights) — Llama(Meta)、DeepSeek V3 / R1、Qwen(阿里)、Mistral — 公開模型權重。你可以下載一個 70B 參數的模型,在自己的 GPU 機器上跑,用自己的資料 fine-tune,完全不付每次查詢的錢。最好的開源模型大約落後前沿閉源 6 到 12 個月,但對很多任務來說這個差距已經小到「便宜 + 私有 + 自主」會贏。

LLM 不擅長的事

三個誠實的弱點。

**即時資訊。**沒有外接工具的話,LLM 只知道訓練資料裡有過的東西。問 Claude 今天的股價,它要嘛拒絕、要嘛猜。
**精確算術和計數。**它是統計文字引擎,不是計算機。任何攸關正確數字的事,要嘛給模型一個工具(Python interpreter),要嘛自己驗一次。
**長文件的忠實摘要。**模型會漂移,context 越長越明顯。摘要一份 100 頁的合約,高風險條款請手動驗證。

一個合理的心智模型:LLM 是一個聰明、口才好的實習生,讀過所有書但沒有一件事記得很精確,不知道也不會承認,而且每月只要 $20。請用這個方式對待它。