MMLU(Massive Multitask Language Understanding)是一個約 16,000 題的選擇題基準,涵蓋 57 個學科——高中數學、美國史、專業法律、大學醫學、computer science、哲學等等。模型對每題選 A/B/C/D,整體正確率作為分數。
它重要的原因是:MMLU 從 GPT-3 時代到 GPT-4 時代都是 LLM 的標準「通識」量尺。幾乎每個模型發佈都把 MMLU 當第一個 benchmark 報。25% 是隨機猜(4 選 1),60-70% 約為研究所水準的人類,前緣模型現在超過 87%。
舉個題目:「In a population in Hardy-Weinberg equilibrium, the frequency of allele A is 0.4. What is the frequency of heterozygotes?」模型從四選一挑一個。答對 +1 分。
限制:MMLU 已經飽和。頂級模型分數都在 80 多 / 90,模型間的差距落在雜訊範圍內。benchmark 本身也有已知錯誤(~2-5% 題目標錯)跟污染問題(訓練資料可能包含這些測試集的 Q&A)。新的評估像 MMLU-Pro、GPQA、BIG-Bench Hard 設計得更難、更不容易作弊。延伸閱讀:HumanEval、GPQA、evaluation、benchmark contamination。
We use cookies
Anonymous analytics help us improve the site. You can opt out anytime. Learn more