CMMLU

另一个中文版 MMLU 风格的基准，67 个学科约 12,000 道选择题，比 C-Eval 更强调中国特有知识。

CMMLU 是另一个中文多任务基准，跟 MMLU、C-Eval 同类。包含约 12,000 道选择题、67 个学科，特意强调中国特有内容——中国法律、中医、中国文化等等——加上标准的 STEM 跟人文学科。它重要的原因是：虽然 C-Eval 涵盖类似范围，CMMLU 设计时更强调文化跟地区知识的测试。一个模型在翻译版 MMLU 表现好、CMMLU 表现差，多半是中文 specific 训练数据不够。中文模型 leaderboard 通常 C-Eval 跟 CMMLU 并列报。举例：中医鉴别诊断、根据中国合同法分析房屋纠纷的法律后果、地方菜系特征。这些题目没办法靠只学西方知识的模型解。实务上，C-Eval 跟 CMMLU 分数的差距能告诉你模型的本地化质量。中文原生模型（DeepSeek、Qwen、GLM、Yi、Baichuan）两个 benchmark 分数差不多。西方模型 CMMLU 常比 C-Eval 低 5-10 分，因为中国特有学科扣它更多分。延伸阅读：C-Eval、MMLU、SuperCLUE、evaluation。