怎么老实评测你的 RAG 系统

大部分 RAG 系统的评测流程长这样:团队盖好,创始人问五个问题,答案看起来不错,出货。三个礼拜后客户开始抱怨答案有错,团队完全没法判断是哪一段管线坏掉。

认真做 RAG 评测不是选配。它决定了你出货的是「平均看起来能跑」的系统,还是「真实长尾问题不会烂」的系统。

这篇是实务 playbook:两条评测轴线、一份 golden dataset、真的能抓到 bug 的指标。

为什么「答案看起来不错」不够

RAG 至少有三种不同的失败模式,从外面看一模一样:

当创始人只是用眼睛看五个答案,他根本看不出来是哪一种模式在失败。每一种要修的东西都不一样。所以你必须分开评测检索跟生成。

没这个其他都不重要。RAG 的 golden dataset 就是一串三元组:

{ question, ideal_answer, ideal_source_document_ids }

最小可用:30 题。甜蜜点:100-300 题。内容混搭:

写这些很烦,也是整个项目 ROI 最高的工作。没 golden 集的团队就是蒙眼飞行。

从哪里来:真实用户 log、客服工单、现有 FAQ。如果还没用户,就坐在 corpus 前面自己写 30 题。

这部分最被低估。把每题只跑检索(不跑生成),检查理想来源 ID 有没有出现在 top-K。

三个指标:

Recall@K。 K 笔结果里,对的文档有没有出现?如果 recall@5 = 60%,在 LLM 还没看到问题之前你就已经损失 40% 答案了。
Precision@K。 K 笔里有几笔是相关的?precision 低 = LLM 在垃圾堆里找东西。
MRR(Mean Reciprocal Rank)。 对的文档在第 1 位 = 1.0,第 2 位 = 0.5,第 5 位 = 0.2。抓「排多前面」。越接近 1.0 越好。

2026 年,在干净的 corpus 上 recall@10 低于 80% 代表检索要修了 —— 大概率是 chunk 大小、embedding 模型、或要加 hybrid search。

把生成独立出来:直接喂理想来源文档给模型(不是检索回来的),看输出。这告诉你 LLM 能不能用「绝对正确」的 context。

三轴要打分:

忠实度(Faithfulness)。 答案是不是只包含文档支持的主张?幻觉在这里是毁灭性的。用 LLM 当 judge:「给这些文档跟这个答案,每个事实主张是不是都在文档里?回 YES / NO 并说明理由。」
答案相关性。 答案有没有回答问题?「退费政策是什么?」答「我们有 30 天窗口」—— 相关。答「我们重视客户」—— 不相关。
完整度。 有没有涵盖理想答案的所有要点?用部分得分:把理想答案的关键主张抽出来,看模型答案命中几个。

一旦把检索跟生成分开,你就能定位 bug。检索坏了?修 chunking、reranking、query expansion。检索 OK 但生成烂?换更强模型或改 system prompt。

除了阶段性指标,还要追踪:

你不需要从零盖框架。2026 年现况:

Ragas。 开源,事实标准。有 faithfulness、answer relevance、context precision/recall。pip install 指向你的数据就拿到分数。
TruLens。 范围类似,更 dashboard 化。
Promptfoo。 通用 LLM eval 工具但 RAG 支持很好。
DeepEval。 pytest 风格的 LLM 输出断言,适合 CI。
Langfuse / LangSmith。 tracing + eval 一条龙,如果你已经在用做 observability 顺便用。

真产品做法:Ragas 或 TruLens 跑批量评测,加上一份 30 题回归集,每次改 prompt 或换模型都跑一次。在用户抓到之前先抓到。

实务上这个流程有用:

这个用 20% 的力气抓到 80% 的 regression。