MMLU(Massive Multitask Language Understanding)是一个约 16,000 题的选择题基准,涵盖 57 个学科——高中数学、美国史、专业法律、大学医学、computer science、哲学等等。模型对每题选 A/B/C/D,整体正确率作为分数。
它重要的原因是:MMLU 从 GPT-3 时代到 GPT-4 时代都是 LLM 的标准「通识」量尺。几乎每个模型发布都把 MMLU 当第一个 benchmark 报。25% 是随机猜(4 选 1),60-70% 约为研究生水准的人类,前沿模型现在超过 87%。
举个题目:「In a population in Hardy-Weinberg equilibrium, the frequency of allele A is 0.4. What is the frequency of heterozygotes?」模型从四选一挑一个。答对 +1 分。
限制:MMLU 已经饱和。顶级模型分数都在 80 多 / 90,模型间的差距落在噪声范围内。benchmark 本身也有已知错误(~2-5% 题目标错)跟污染问题(训练数据可能包含这些测试集的 Q&A)。新的评估像 MMLU-Pro、GPQA、BIG-Bench Hard 设计得更难、更不容易作弊。延伸阅读:HumanEval、GPQA、evaluation、benchmark contamination。
We use cookies
Anonymous analytics help us improve the site. You can opt out anytime. Learn more