CMMLU

另一個中文版 MMLU 風格的基準，67 個學科約 12,000 道選擇題，比 C-Eval 更強調中國特有知識。

CMMLU 是另一個中文多任務基準，跟 MMLU、C-Eval 同類。包含約 12,000 道選擇題、67 個學科，特意強調中國特有內容——中國法律、中醫、中國文化等等——加上標準的 STEM 跟人文學科。它重要的原因是：雖然 C-Eval 涵蓋類似範圍，CMMLU 設計時更強調文化跟地區知識的測試。一個模型在翻譯版 MMLU 表現好、CMMLU 表現差，多半是中文 specific 訓練資料不夠。中文模型 leaderboard 通常 C-Eval 跟 CMMLU 並列報。舉例：中醫鑑別診斷、根據中國合約法分析房屋糾紛的法律後果、地方菜系特徵。這些題目沒辦法靠只學西方知識的模型解。實務上，C-Eval 跟 CMMLU 分數的差距能告訴你模型的本地化品質。中文原生模型（DeepSeek、Qwen、GLM、Yi、Baichuan）兩個 benchmark 分數差不多。西方模型 CMMLU 常比 C-Eval 低 5-10 分，因為中國特有學科扣它更多分。延伸閱讀：C-Eval、MMLU、SuperCLUE、evaluation。