C-Eval（中文評估基準）

中文版的 MMLU——約 14,000 道選擇題、涵蓋 52 個學科，從國中到專業證照等級。

C-Eval 是中文 LLM 的標準通識基準。由上海交大、清華的研究者建立，包含約 14,000 道選擇題、涵蓋 52 個學科，分四個難度級別（國中、高中、大學、專業）。學科涵蓋 STEM、人文、社科、以及中文特有題目像中國史、政治理論。它重要的原因是：MMLU 是英文的，沒辦法測模型對中文知識、中文特有概念的掌握。C-Eval 成了「這模型中文好不好」的預設指標——Qwen、DeepSeek、GLM、Yi、Baichuan、Kimi 都會報 C-Eval 分數。西方模型（GPT-4、Claude、Gemini）也常被拿來評估。舉例：關於唐詩的題目、高考數學題、或中國法律題。模型四選一，看正確率。頂級中文模型（DeepSeek、Qwen、GLM-4）常拿 75-85%，在中文知識子集有時候勝過 GPT-4。限制跟 MMLU 類似：飽和、有污染風險、正確率不一定代表實際好用。CMMLU 是另一個 benchmark 涵蓋類似範圍但題目不同；SuperCLUE 是更新、更分難度的替代品。延伸閱讀：MMLU、CMMLU、SuperCLUE、evaluation。