跳到内容

进阶★★★★10 分钟阅读

怎么大规模评测 LLM 输出质量

三种真的能规模化的 eval —— golden dataset、LLM-as-judge、在线指标,以及什么时候该用哪个。

登入以收藏

出货过 LLM 产品都会撞到同一道墙:人工质量 review 规模化不了。一周读 50 段对话对 1000/天流量是有意义样本,到 10 万/天连失败都读不完别说平均案例。你需要自动化。

大规模 LLM 评测是它自己的纪律。2026 年三种有效做法,以及挑选的规则。

三种口味

1. Golden dataset 评测(离线)

固定的输入集,每个配理想答案(或定义「好」长什么样的 rubric)。模型跑完整集,每笔评分,加总。

用途:regression 测试、prompt 迭代、模型比较。

强项:确定性、跨 run 可比、迭代快。

弱项:只跟 dataset 一样好。小或偏的 golden set 给假信心。真实流量分布漂移反映不到。

2. LLM-as-judge

用强 LLM(Claude Opus、GPT-5)拿你的 rubric 评其他 LLM 输出。

Prompt:
「你在评一个答案的准确度跟有用度。
问题:{q}
答案:{a}
Rubric:{rubric}
回 JSON:{ score: 1-5, reasoning: string }」

用途:大规模便宜地对输出打分,特别是主观质量(有用、语气、忠实度)精确比对失败的时候。

强项:百万输出便宜地规模化(Haiku 当 judge $0.25/M input)。抓细微质量维度。

弱项:judge 有偏见(偏好冗长、正式语气、自己的输出在配对比较中)。模型版本变动时 calibration 会漂。Opus 当 judge 贵($90/M output)。

3. 在线指标(真实用户)

量用户行为:赞踩、对话长度、重试率、解决时间、复制率、放弃率。

用途:真实世界质量的 ground truth。用户实际感受到的数字。

强项:真信号。没人造 dataset。抓你没想到要量的质量维度。

弱项:噪声大。改变侦测慢。不告诉你哪个 prompt 或模型改动造成 regression。没法在用户看到前抓问题。

决策树

用哪个?看你在测什么:

  • 「我的 prompt 改有没有打破什么?」 → Golden dataset。Before/after 跑,有 regression 挡下。
  • 「GPT-5 在我任务上比 Sonnet 强吗?」 → 在几千个真实 query 上跑 LLM-as-judge。
  • 「我的产品是不是在变烂?」 → 在线指标 dashboard。
  • 「我们在哪种问题上失败?」 → LLM-as-judge 对真实流量打分,然后人工 review 低分输出。
  • 「这个幻觉率可以接受吗?」 → Golden dataset 配可验证答案;补上在线踩号。

规模化的栈是三个都要:golden 给 CI、LLM-as-judge 给流量抽样、在线指标给 ground truth。

盖好 golden dataset

最常见错误:一个工程师一小时写的 30 题集。偏、窄、分布错。

好的 golden:

  • 尽可能从真实流量来(去 PII)。真实用户问你想不到的东西。
  • 分层按类别、难度、领域。30 简单 + 30 中 + 30 难,不是 90 个随机。
  • 包含失败 case,团队看过的 —— bug 报告、客服工单、抱怨。
  • 有理想答案或 rubric。有些题目没一个对的答案(创意写作),rubric(「回答有趣吗?有事实根据吗?长度对吗?」)更弹性。
  • 2+ 人审过才用。单一审者的偏见变团队偏见。
  • 每季用最近流量补新 example

大小:单一产品 50-200 个通常够多。越大不一定越好 —— 5,000 个的 golden 每次 prompt 改完跑半天。

LLM-as-judge 实务

Judge prompt 是最重要的部分,需要:

  • 清楚 rubric。 别说「这个好吗?」,说「1-5 打分根据(a) 事实准确度、(b) 有没有回答用户真正的问题、(c) 长度合理、(d) 安全且尊重的语气。」
  • Few-shot example。 给 judge 看 5 分跟 2 分长什么样。calibration 大幅改善。
  • 先 reasoning 再分数。 分数要求在 reasoning 之后,不是之前。「先想再下结论」比「先打分再合理化」分数更可靠。
  • 结构化输出。 用 JSON mode 或 tool use。「这个大概 4 分?」这种字串解不了。

很有用的小提示:用人类校准 judge。拿 100 个输出,人类打分,judge 打分,比相关性。相关性 < 0.7 代表 rubric 不清楚或 judge 模型太弱。修 rubric 或升级 judge。

LLM-as-judge 常见偏见

已知失败模式:

  • 冗长偏见。 长答案分数高,即使短的更好。
  • 位置偏见(配对比较)。第一个显示的答案赢更多。缓解:打乱顺序,或两种顺序都跑取平均。
  • 自我偏好。 GPT-5 judge 认为 GPT-5 输出比较好。避免拿同一模型评它自己。
  • 风格偏见。 正式语气分数高,不论准确度。
  • 对自信错答案过度信心。 自信但错的答案往往比 hedging 但对的分数高。

大部分透过仔细 rubric 设计加人类校准缓解。

有用的在线指标

值得放 dashboard 的四个信号:

  1. 每个响应的赞踩。 加按钮,别看绝对数字,看时序变化。
  2. 重试率。 多少比例对话有用户重问同一问题(改写)?上升 = 质量下降。
  3. 「任务完成」结局的对话长度。 用户 2 轮解决还是 8 轮?
  4. 特定功能使用(产品内):出货「复制答案」按钮,复制率是强信号。

按 cohort dashboard(模型、prompt 版本、用户群)。东西变动时你有数据定位 regression。

规模化 pattern:三层评测

认真产品有效的栈:

  1. Pre-deploy: 100 题 golden dataset。每次 prompt 改跑。质量掉 > 3% 或幻觉率上升 > 1% 就挡 deploy。CI gate。
  2. 实时抽样: 5% production 流量上 LLM-as-judge,每天打分。周度人工 review < 3/5 分对话。
  3. 稳态: 在线指标 dashboard。每模型赞踩率,周度趋势。

不同延迟抓不同问题:golden 立刻抓明显 regression,抽样几天内抓真实分布漂移,在线指标几周内抓慢退化。

成本

快速数学,10,000 对话/天的产品:

  • 每 release 跑 golden eval(100 题 × Sonnet eval):$0.50/run。免费。
  • 5% LLM-as-judge 抽样(500 对话/天 × Haiku judge):$0.20/天 = $73/年。免费。
  • 抽出低分人工 review(每周某人 1 小时):真成本。

质量评测是 LLM stack 上最便宜的投资之一。大部分团队跳过是因为以为贵,其实不贵。

什么时候不要评测

  • MVP 之前。 你还不知道「好」是什么。先弄出能出货的东西再评测。
  • 没流量。 < 100 对话/天人工读完。
  • 单人内部工具。 直接问那个人。

投资触发点:prompt 改开始觉得可怕,因为你判断不出有没有帮到或伤到。

下一步

  • G-EvalPrometheus —— LLM-as-judge calibration 论文。
  • Ragas、TruLens、DeepEval —— 实务框架。
  • 本 Learn 库的 RAG evaluation 那篇。
  • 查这些词:pairwise judging、judge calibration、golden dataset stratification、LLM eval observability。

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more