SuperCLUE

綜合性的中文 LLM 基準測試，涵蓋推理、知識、語言、程式碼、安全，會定期更新 leaderboard。

SuperCLUE 是 CLUE 團隊（Chinese Language Understanding Evaluation）出的綜合中文 LLM 基準測試套件。跟單一測試不同，SuperCLUE 是一組涵蓋推理、廣泛知識、語言理解、程式碼、agent 能力、長 context、安全的測試組合。團隊定期更新中西模型混排的 leaderboard。它重要的原因是：中文 AI 生態需要比 C-Eval/CMMLU 更嚴謹、更新的 benchmark，而後兩者已經飽和。SuperCLUE 有多個子賽道（SuperCLUE-Math、SuperCLUE-Agent、SuperCLUE-Code、SuperCLUE-Safety、SuperCLUE-Long）測試特定能力，leaderboard 隨新模型發佈更新。對中文市場的產品團隊，SuperCLUE 排名是最可信的訊號之一。舉例：SuperCLUE-Long 測模型怎麼處理 100k+ token 的中文文件——needle-in-haystack、跨文件推理、長文摘要。SuperCLUE-Agent 測中文環境下的工具使用、規劃、多步驟任務完成。限制：跟所有 benchmark 一樣，模型如果訓練資料污染了測試集就能作弊，團隊必須定期更新題庫對抗。把 leaderboard 當訊號之一，配合你自己的任務 evaluation 一起看。延伸閱讀：C-Eval、CMMLU、MMLU、evaluation。