MMLU · BuilderWorld

57 个学科（高中到专业级）的选择题基准，是衡量 LLM 广泛知识最常被引用的指标，以正确率（%）呈现。

MMLU（Massive Multitask Language Understanding）是一个约 16,000 题的选择题基准，涵盖 57 个学科——高中数学、美国史、专业法律、大学医学、computer science、哲学等等。模型对每题选 A/B/C/D，整体正确率作为分数。它重要的原因是：MMLU 从 GPT-3 时代到 GPT-4 时代都是 LLM 的标准「通识」量尺。几乎每个模型发布都把 MMLU 当第一个 benchmark 报。25% 是随机猜（4 选 1），60-70% 约为研究生水准的人类，前沿模型现在超过 87%。举个题目：「In a population in Hardy-Weinberg equilibrium, the frequency of allele A is 0.4. What is the frequency of heterozygotes?」模型从四选一挑一个。答对 +1 分。限制：MMLU 已经饱和。顶级模型分数都在 80 多 / 90，模型间的差距落在噪声范围内。benchmark 本身也有已知错误（~2-5% 题目标错）跟污染问题（训练数据可能包含这些测试集的 Q&A）。新的评估像 MMLU-Pro、GPQA、BIG-Bench Hard 设计得更难、更不容易作弊。延伸阅读：HumanEval、GPQA、evaluation、benchmark contamination。