跳到內容

入門★★★★6 分鐘閱讀

為什麼 LLM 會幻覺?可以怎麼做

LLM 不是在「說謊」 — 它在預測聽起來合理的文字,不知道對不對。緩解靠 RAG、引用、驗證,不是「更好的訓練資料」。

登入以收藏

LLM 幻覺是它自信地產出聽起來合理但不是真的東西:假引用、不存在的函式名、沒講過的話、差一點點對的事實。這是現代 AI 最被討論的弱點,而且不會消失 — 它是這個技術運作方式本身的特性。

為什麼幻覺是結構性的

回想 LLM 的一句話定義:它根據 context 預測下一個 token。訓練過程把模型推向預測合理的文字 — 也就是「這種文件接下來通常會出現的東西」。

模型沒有「真實」這個概念,只有「在這種 context 下,通常會接什麼樣的東西」。你問一個真實但冷門法條的引用,模型會生出看起來像真實法條引用的東西。有時引用真的存在,有時標題對但年份錯,有時整段是編的、格式漂亮。

這不是模型「真實性模組」壞了 — 沒有真實性模組這種東西。模型就是在做訓練要它做的事:產出合理文字。「合理」跟「真實」大多時候重疊,不總是。

幻覺最常出現的時候

四個提高幻覺風險的 pattern:

**模型沒被訓練到的具體事實。**最近事件、冷門主題、你的私有資料。模型會合理地填空。緩解:RAG、網路搜尋工具。

**精確數字。**統計、引用頁碼、版本號、時間戳。模型對精確記憶很差。緩解:驗證步驟、來源檢查。

**鄰近主題混淆。**問「React 19 的 useTransition hook」 — 模型如果知道之前的 React 但不知道 19,會合理地拼出來。緩解:明確版本錨定、RAG 對當前文件。

誘導性問題。「Yann LeCun 在 2024 年 3 月那場訪談裡怎麼講 Anthropic?」 — 如果根本沒這場訪談,模型常常還是會編一場。緩解:指令叫模型不確定就拒絕(部分有用)。

什麼不能修幻覺

三個流行但誤導的「解法」:

**「換更大的模型就好」。**大模型在常見主題幻覺較少,但 edge case 仍會幻覺。趨勢是改善,不是消滅。不要賭下個模型發布解決你的可靠性問題。

**「Fine-tune 在『真實』上就好」。**Fine-tuning 教 pattern 不教事實。你可以 fine-tune 模型模仿引用風格,但不能真的知道哪些引用是真的。要事實 grounding,必須 runtime retrieval

「Prompt 加一句『不要幻覺』就好」。微幅有用。新訓練的模型在被問時明顯比較會說「我不確定」。但高風險決策不能只靠 prompt

真的能降低幻覺的方法

四個有效緩解:

**RAG(Retrieval-Augmented Generation)。**Runtime 取相關文件、貼進 prompt、指示模型「只根據檢索內容回答」。這是 AI 功能要事實 grounding 的業界標準。模型有對的文字在面前,幻覺大幅下降。

**引用與驗證。**要求模型對任何事實聲明引用來源,程式化檢查所引來源。新版 Claude / GPT-5 / Gemini 在 research mode 都原生這樣做。

**用工具拿事實。**不要問模型現在幾點 — 給它 get_time 工具。不要問現在比特幣價格 — 給它價格查詢工具。任何事實有確定來源,把那個來源暴露成工具

**拒答訓練與不確定性。**新版模型明確被訓練去辨識自己不確定、然後說出來或問釐清問題。利用這個 — system prompt 可以鼓勵「不確定就說」。

怎麼跟殘留幻覺共存

即便緩解都做齊,幻覺仍是 tail risk,不是已解問題。設計上要假設會有錯。策略:

  • 在錯了最貴的點疊人類 review(合約最終稿、對外回覆、會花錢的決策)。
  • **顯示來源。**Use 能驗證,幻覺被抓到不會擴散。
  • **Log 跟稽核。**追蹤輸出對 feedback,辨識幻覺 pattern、修根因(prompt、retrieval、模型)。
  • **不要承諾 100% 準確。**產品文案寫「AI 有時會錯 — 重要事實請驗」是誠實又建立信任。承諾完美的文案會把一次幻覺變成一場官司。

幻覺什麼時候 OK

一個有用的視角:幻覺重要程度 = 錯了多貴。下面這幾種情境比較不重要:

  • 你在 brainstorm 想法(false positive 沒關係,你會篩)
  • 你要的是會大改的初稿
  • 你拿 AI 找靈感,不是找事實
  • 模型輸出有「知道真相」的人在看

以下情境很重要:

  • 輸出直接給客戶、監管、大眾
  • 輸出驅動自動化決策(財務、醫療、法律)
  • User 很難驗證(他不知道對不對)

什麼時候不要太執著於幻覺

如果你的 app 是創意寫作、brainstorm、初稿生成,完美事實準確度不是重點。花工程力氣把「寫一首星期二的詩」幻覺率從 5% 壓到 4%,是浪費。緩解力氣放在錯了會有代價的地方。

延伸閱讀

  • 什麼是 RAG
  • 什麼是 LLM
  • 什麼是 tool use / function calling
  • 防 prompt injection:2026 實際的護欄
  • 怎麼大規模 eval LLM 輸出品質

最後更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more

為什麼 LLM 會幻覺?可以怎麼做 · BuilderWorld