C-Eval 是中文 LLM 的标准通识基准。由上海交大、清华的研究者建立,包含约 14,000 道选择题、涵盖 52 个学科,分四个难度级别(初中、高中、大学、专业)。学科涵盖 STEM、人文、社科、以及中文特有题目像中国史、政治理论。 它重要的原因是:MMLU 是英文的,没办法测模型对中文知识、中文特有概念的掌握。C-Eval 成了「这模型中文好不好」的默认指标——Qwen、DeepSeek、GLM、Yi、Baichuan、Kimi 都会报 C-Eval 分数。西方模型(GPT-4、Claude、Gemini)也常被拿来评估。 举例:关于唐诗的题目、高考数学题、或中国法律题。模型四选一,看正确率。顶级中文模型(DeepSeek、Qwen、GLM-4)常拿 75-85%,在中文知识子集有时候胜过 GPT-4。 限制跟 MMLU 类似:饱和、有污染风险、正确率不一定代表实际好用。CMMLU 是另一个 benchmark 涵盖类似范围但题目不同;SuperCLUE 是更新、更分难度的替代品。延伸阅读:MMLU、CMMLU、SuperCLUE、evaluation。