C-Eval 是中文 LLM 的標準通識基準。由上海交大、清華的研究者建立,包含約 14,000 道選擇題、涵蓋 52 個學科,分四個難度級別(國中、高中、大學、專業)。學科涵蓋 STEM、人文、社科、以及中文特有題目像中國史、政治理論。 它重要的原因是:MMLU 是英文的,沒辦法測模型對中文知識、中文特有概念的掌握。C-Eval 成了「這模型中文好不好」的預設指標——Qwen、DeepSeek、GLM、Yi、Baichuan、Kimi 都會報 C-Eval 分數。西方模型(GPT-4、Claude、Gemini)也常被拿來評估。 舉例:關於唐詩的題目、高考數學題、或中國法律題。模型四選一,看正確率。頂級中文模型(DeepSeek、Qwen、GLM-4)常拿 75-85%,在中文知識子集有時候勝過 GPT-4。 限制跟 MMLU 類似:飽和、有污染風險、正確率不一定代表實際好用。CMMLU 是另一個 benchmark 涵蓋類似範圍但題目不同;SuperCLUE 是更新、更分難度的替代品。延伸閱讀:MMLU、CMMLU、SuperCLUE、evaluation。