跳到內容

指標

C-Eval(中文評估基準)

C-Eval

中文版的 MMLU——約 14,000 道選擇題、涵蓋 52 個學科,從國中到專業證照等級。

登入以收藏
C-Eval 是中文 LLM 的標準通識基準。由上海交大、清華的研究者建立,包含約 14,000 道選擇題、涵蓋 52 個學科,分四個難度級別(國中、高中、大學、專業)。學科涵蓋 STEM、人文、社科、以及中文特有題目像中國史、政治理論。 它重要的原因是:MMLU 是英文的,沒辦法測模型對中文知識、中文特有概念的掌握。C-Eval 成了「這模型中文好不好」的預設指標——Qwen、DeepSeek、GLM、Yi、Baichuan、Kimi 都會報 C-Eval 分數。西方模型(GPT-4、Claude、Gemini)也常被拿來評估。 舉例:關於唐詩的題目、高考數學題、或中國法律題。模型四選一,看正確率。頂級中文模型(DeepSeek、Qwen、GLM-4)常拿 75-85%,在中文知識子集有時候勝過 GPT-4。 限制跟 MMLU 類似:飽和、有污染風險、正確率不一定代表實際好用。CMMLU 是另一個 benchmark 涵蓋類似範圍但題目不同;SuperCLUE 是更新、更分難度的替代品。延伸閱讀:MMLU、CMMLU、SuperCLUE、evaluation。

最後更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more

C-Eval(中文評估基準) · BuilderWorld