MMLU · BuilderWorld

57 個學科（高中到專業級）的選擇題基準，是衡量 LLM 廣泛知識最常被引用的指標，以正確率（%）呈現。

MMLU（Massive Multitask Language Understanding）是一個約 16,000 題的選擇題基準，涵蓋 57 個學科——高中數學、美國史、專業法律、大學醫學、computer science、哲學等等。模型對每題選 A/B/C/D，整體正確率作為分數。它重要的原因是：MMLU 從 GPT-3 時代到 GPT-4 時代都是 LLM 的標準「通識」量尺。幾乎每個模型發佈都把 MMLU 當第一個 benchmark 報。25% 是隨機猜（4 選 1），60-70% 約為研究所水準的人類，前緣模型現在超過 87%。舉個題目：「In a population in Hardy-Weinberg equilibrium, the frequency of allele A is 0.4. What is the frequency of heterozygotes?」模型從四選一挑一個。答對 +1 分。限制：MMLU 已經飽和。頂級模型分數都在 80 多 / 90，模型間的差距落在雜訊範圍內。benchmark 本身也有已知錯誤（~2-5% 題目標錯）跟污染問題（訓練資料可能包含這些測試集的 Q&A）。新的評估像 MMLU-Pro、GPQA、BIG-Bench Hard 設計得更難、更不容易作弊。延伸閱讀：HumanEval、GPQA、evaluation、benchmark contamination。