C-Eval（中文评估基准）

中文版的 MMLU——约 14,000 道选择题、涵盖 52 个学科，从初中到专业资格等级。

C-Eval 是中文 LLM 的标准通识基准。由上海交大、清华的研究者建立，包含约 14,000 道选择题、涵盖 52 个学科，分四个难度级别（初中、高中、大学、专业）。学科涵盖 STEM、人文、社科、以及中文特有题目像中国史、政治理论。它重要的原因是：MMLU 是英文的，没办法测模型对中文知识、中文特有概念的掌握。C-Eval 成了「这模型中文好不好」的默认指标——Qwen、DeepSeek、GLM、Yi、Baichuan、Kimi 都会报 C-Eval 分数。西方模型（GPT-4、Claude、Gemini）也常被拿来评估。举例：关于唐诗的题目、高考数学题、或中国法律题。模型四选一，看正确率。顶级中文模型（DeepSeek、Qwen、GLM-4）常拿 75-85%，在中文知识子集有时候胜过 GPT-4。限制跟 MMLU 类似：饱和、有污染风险、正确率不一定代表实际好用。CMMLU 是另一个 benchmark 涵盖类似范围但题目不同；SuperCLUE 是更新、更分难度的替代品。延伸阅读：MMLU、CMMLU、SuperCLUE、evaluation。