Hallucination(幻覺)是 LLM 會產出看起來很有自信、句子通順但事實錯誤內容的傾向。模型不「知道」什麼是真的——它預測 prompt 之後接什麼 token 機率高,而「關於愛因斯坦 1923 年論文的合理文字」可以從 pattern 編出來,根本不是從任何真實事實檢索的。 它重要的原因是:幻覺是不能盲目信任 LLM 輸出的首要原因。文字讀起來流暢、引用看起來像真論文、API endpoint 看起來語法正確——但可能根本是虛構的。在法律、醫療、金融、production code 場景,幻覺是真的會出事。 知名案例:2023 年美國律師交了一份用 ChatGPT 寫的法庭文件,引用了六個假造的案例。案例名稱、法官、引用格式都看起來合理——但這些案子不存在。法官懲處了該律師。 緩解方式:RAG(用真實文件做基礎)、tool use(讓模型用搜尋 / 資料庫驗證)、prompt 技巧(「不知道就說不知道」)、嚴格輸出驗證(regex / schema 檢查)。有些模型訓練時就強化「不確定就拒絕」,效果不一。前緣模型的幻覺率已大幅下降但沒有歸零。高風險事實一定要驗證。延伸閱讀:RAG、tool use、alignment、factuality。