CMMLU 是另一个中文多任务基准,跟 MMLU、C-Eval 同类。包含约 12,000 道选择题、67 个学科,特意强调中国特有内容——中国法律、中医、中国文化等等——加上标准的 STEM 跟人文学科。 它重要的原因是:虽然 C-Eval 涵盖类似范围,CMMLU 设计时更强调文化跟地区知识的测试。一个模型在翻译版 MMLU 表现好、CMMLU 表现差,多半是中文 specific 训练数据不够。中文模型 leaderboard 通常 C-Eval 跟 CMMLU 并列报。 举例:中医鉴别诊断、根据中国合同法分析房屋纠纷的法律后果、地方菜系特征。这些题目没办法靠只学西方知识的模型解。 实务上,C-Eval 跟 CMMLU 分数的差距能告诉你模型的本地化质量。中文原生模型(DeepSeek、Qwen、GLM、Yi、Baichuan)两个 benchmark 分数差不多。西方模型 CMMLU 常比 C-Eval 低 5-10 分,因为中国特有学科扣它更多分。延伸阅读:C-Eval、MMLU、SuperCLUE、evaluation。