CMMLU 是另一個中文多任務基準,跟 MMLU、C-Eval 同類。包含約 12,000 道選擇題、67 個學科,特意強調中國特有內容——中國法律、中醫、中國文化等等——加上標準的 STEM 跟人文學科。 它重要的原因是:雖然 C-Eval 涵蓋類似範圍,CMMLU 設計時更強調文化跟地區知識的測試。一個模型在翻譯版 MMLU 表現好、CMMLU 表現差,多半是中文 specific 訓練資料不夠。中文模型 leaderboard 通常 C-Eval 跟 CMMLU 並列報。 舉例:中醫鑑別診斷、根據中國合約法分析房屋糾紛的法律後果、地方菜系特徵。這些題目沒辦法靠只學西方知識的模型解。 實務上,C-Eval 跟 CMMLU 分數的差距能告訴你模型的本地化品質。中文原生模型(DeepSeek、Qwen、GLM、Yi、Baichuan)兩個 benchmark 分數差不多。西方模型 CMMLU 常比 C-Eval 低 5-10 分,因為中國特有學科扣它更多分。延伸閱讀:C-Eval、MMLU、SuperCLUE、evaluation。