Hallucination(幻觉)是 LLM 会产出看起来很有自信、句子通顺但事实错误内容的倾向。模型不「知道」什么是真的——它预测 prompt 之后接什么 token 概率高,而「关于爱因斯坦 1923 年论文的合理文字」可以从 pattern 编出来,根本不是从任何真实事实检索的。 它重要的原因是:幻觉是不能盲目信任 LLM 输出的首要原因。文字读起来流畅、引用看起来像真论文、API endpoint 看起来语法正确——但可能根本是虚构的。在法律、医疗、金融、production code 场景,幻觉是真的会出事。 知名案例:2023 年美国律师交了一份用 ChatGPT 写的法庭文件,引用了六个假造的案例。案例名称、法官、引用格式都看起来合理——但这些案子不存在。法官惩处了该律师。 缓解方式:RAG(用真实文档做基础)、tool use(让模型用搜索 / 数据库验证)、prompt 技巧(「不知道就说不知道」)、严格输出验证(regex / schema 检查)。有些模型训练时就强化「不确定就拒绝」,效果不一。前沿模型的幻觉率已大幅下降但没有归零。高风险事实一定要验证。延伸阅读:RAG、tool use、alignment、factuality。