怎么大规模评测 LLM 输出质量

出货过 LLM 产品都会撞到同一道墙:人工质量 review 规模化不了。一周读 50 段对话对 1000/天流量是有意义样本,到 10 万/天连失败都读不完别说平均案例。你需要自动化。

大规模 LLM 评测是它自己的纪律。2026 年三种有效做法,以及挑选的规则。

三种口味

1. Golden dataset 评测(离线)

固定的输入集,每个配理想答案(或定义「好」长什么样的 rubric)。模型跑完整集,每笔评分,加总。

用途:regression 测试、prompt 迭代、模型比较。

强项:确定性、跨 run 可比、迭代快。

弱项:只跟 dataset 一样好。小或偏的 golden set 给假信心。真实流量分布漂移反映不到。

2. LLM-as-judge

用强 LLM(Claude Opus、GPT-5)拿你的 rubric 评其他 LLM 输出。

Prompt:
「你在评一个答案的准确度跟有用度。
问题:{q}
答案:{a}
Rubric:{rubric}
回 JSON:{ score: 1-5, reasoning: string }」

用途:大规模便宜地对输出打分,特别是主观质量(有用、语气、忠实度)精确比对失败的时候。

强项:百万输出便宜地规模化(Haiku 当 judge $0.25/M input)。抓细微质量维度。

弱项:judge 有偏见(偏好冗长、正式语气、自己的输出在配对比较中)。模型版本变动时 calibration 会漂。Opus 当 judge 贵($90/M output)。

3. 在线指标(真实用户)

量用户行为:赞踩、对话长度、重试率、解决时间、复制率、放弃率。

用途:真实世界质量的 ground truth。用户实际感受到的数字。

强项:真信号。没人造 dataset。抓你没想到要量的质量维度。

弱项:噪声大。改变侦测慢。不告诉你哪个 prompt 或模型改动造成 regression。没法在用户看到前抓问题。

决策树

用哪个?看你在测什么:

「我的 prompt 改有没有打破什么?」 → Golden dataset。Before/after 跑,有 regression 挡下。
「GPT-5 在我任务上比 Sonnet 强吗?」 → 在几千个真实 query 上跑 LLM-as-judge。
「我的产品是不是在变烂?」 → 在线指标 dashboard。
「我们在哪种问题上失败?」 → LLM-as-judge 对真实流量打分,然后人工 review 低分输出。
「这个幻觉率可以接受吗?」 → Golden dataset 配可验证答案;补上在线踩号。

规模化的栈是三个都要:golden 给 CI、LLM-as-judge 给流量抽样、在线指标给 ground truth。

盖好 golden dataset

最常见错误:一个工程师一小时写的 30 题集。偏、窄、分布错。

好的 golden:

尽可能从真实流量来(去 PII)。真实用户问你想不到的东西。
分层按类别、难度、领域。30 简单 + 30 中 + 30 难,不是 90 个随机。
包含失败 case,团队看过的 —— bug 报告、客服工单、抱怨。
有理想答案或 rubric。有些题目没一个对的答案(创意写作),rubric(「回答有趣吗?有事实根据吗?长度对吗?」)更弹性。
2+ 人审过才用。单一审者的偏见变团队偏见。
每季用最近流量补新 example。

大小:单一产品 50-200 个通常够多。越大不一定越好 —— 5,000 个的 golden 每次 prompt 改完跑半天。

LLM-as-judge 实务

Judge prompt 是最重要的部分,需要:

清楚 rubric。 别说「这个好吗?」,说「1-5 打分根据(a) 事实准确度、(b) 有没有回答用户真正的问题、(c) 长度合理、(d) 安全且尊重的语气。」
Few-shot example。 给 judge 看 5 分跟 2 分长什么样。calibration 大幅改善。
先 reasoning 再分数。 分数要求在 reasoning 之后,不是之前。「先想再下结论」比「先打分再合理化」分数更可靠。
结构化输出。 用 JSON mode 或 tool use。「这个大概 4 分?」这种字串解不了。

很有用的小提示:用人类校准 judge。拿 100 个输出,人类打分,judge 打分,比相关性。相关性 < 0.7 代表 rubric 不清楚或 judge 模型太弱。修 rubric 或升级 judge。

LLM-as-judge 常见偏见

已知失败模式:

冗长偏见。 长答案分数高,即使短的更好。
位置偏见(配对比较)。第一个显示的答案赢更多。缓解:打乱顺序,或两种顺序都跑取平均。
自我偏好。 GPT-5 judge 认为 GPT-5 输出比较好。避免拿同一模型评它自己。
风格偏见。 正式语气分数高,不论准确度。
对自信错答案过度信心。 自信但错的答案往往比 hedging 但对的分数高。

大部分透过仔细 rubric 设计加人类校准缓解。

有用的在线指标

值得放 dashboard 的四个信号:

每个响应的赞踩。 加按钮,别看绝对数字,看时序变化。
重试率。 多少比例对话有用户重问同一问题(改写)?上升 = 质量下降。
「任务完成」结局的对话长度。 用户 2 轮解决还是 8 轮?
特定功能使用(产品内):出货「复制答案」按钮,复制率是强信号。

按 cohort dashboard(模型、prompt 版本、用户群)。东西变动时你有数据定位 regression。

规模化 pattern:三层评测

认真产品有效的栈:

Pre-deploy: 100 题 golden dataset。每次 prompt 改跑。质量掉 > 3% 或幻觉率上升 > 1% 就挡 deploy。CI gate。
实时抽样: 5% production 流量上 LLM-as-judge,每天打分。周度人工 review < 3/5 分对话。
稳态: 在线指标 dashboard。每模型赞踩率,周度趋势。

不同延迟抓不同问题:golden 立刻抓明显 regression,抽样几天内抓真实分布漂移,在线指标几周内抓慢退化。

成本

快速数学,10,000 对话/天的产品:

每 release 跑 golden eval(100 题 × Sonnet eval):$0.50/run。免费。
5% LLM-as-judge 抽样(500 对话/天 × Haiku judge):$0.20/天 = $73/年。免费。
抽出低分人工 review(每周某人 1 小时):真成本。

质量评测是 LLM stack 上最便宜的投资之一。大部分团队跳过是因为以为贵,其实不贵。

什么时候不要评测

MVP 之前。 你还不知道「好」是什么。先弄出能出货的东西再评测。
没流量。 < 100 对话/天人工读完。
单人内部工具。 直接问那个人。

投资触发点:prompt 改开始觉得可怕,因为你判断不出有没有帮到或伤到。

下一步

G-Eval 跟 Prometheus —— LLM-as-judge calibration 论文。
Ragas、TruLens、DeepEval —— 实务框架。
本 Learn 库的 RAG evaluation 那篇。
查这些词:pairwise judging、judge calibration、golden dataset stratification、LLM eval observability。