跳到内容

指标

CMMLU

另一个中文版 MMLU 风格的基准,67 个学科约 12,000 道选择题,比 C-Eval 更强调中国特有知识。

登入以收藏
CMMLU 是另一个中文多任务基准,跟 MMLU、C-Eval 同类。包含约 12,000 道选择题、67 个学科,特意强调中国特有内容——中国法律、中医、中国文化等等——加上标准的 STEM 跟人文学科。 它重要的原因是:虽然 C-Eval 涵盖类似范围,CMMLU 设计时更强调文化跟地区知识的测试。一个模型在翻译版 MMLU 表现好、CMMLU 表现差,多半是中文 specific 训练数据不够。中文模型 leaderboard 通常 C-Eval 跟 CMMLU 并列报。 举例:中医鉴别诊断、根据中国合同法分析房屋纠纷的法律后果、地方菜系特征。这些题目没办法靠只学西方知识的模型解。 实务上,C-Eval 跟 CMMLU 分数的差距能告诉你模型的本地化质量。中文原生模型(DeepSeek、Qwen、GLM、Yi、Baichuan)两个 benchmark 分数差不多。西方模型 CMMLU 常比 C-Eval 低 5-10 分,因为中国特有学科扣它更多分。延伸阅读:C-Eval、MMLU、SuperCLUE、evaluation。

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more

CMMLU · BuilderWorld