跳到内容

指标

C-Eval(中文评估基准)

C-Eval

中文版的 MMLU——约 14,000 道选择题、涵盖 52 个学科,从初中到专业资格等级。

登入以收藏
C-Eval 是中文 LLM 的标准通识基准。由上海交大、清华的研究者建立,包含约 14,000 道选择题、涵盖 52 个学科,分四个难度级别(初中、高中、大学、专业)。学科涵盖 STEM、人文、社科、以及中文特有题目像中国史、政治理论。 它重要的原因是:MMLU 是英文的,没办法测模型对中文知识、中文特有概念的掌握。C-Eval 成了「这模型中文好不好」的默认指标——Qwen、DeepSeek、GLM、Yi、Baichuan、Kimi 都会报 C-Eval 分数。西方模型(GPT-4、Claude、Gemini)也常被拿来评估。 举例:关于唐诗的题目、高考数学题、或中国法律题。模型四选一,看正确率。顶级中文模型(DeepSeek、Qwen、GLM-4)常拿 75-85%,在中文知识子集有时候胜过 GPT-4。 限制跟 MMLU 类似:饱和、有污染风险、正确率不一定代表实际好用。CMMLU 是另一个 benchmark 涵盖类似范围但题目不同;SuperCLUE 是更新、更分难度的替代品。延伸阅读:MMLU、CMMLU、SuperCLUE、evaluation。

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more