跳到內容

指標

SuperCLUE

綜合性的中文 LLM 基準測試,涵蓋推理、知識、語言、程式碼、安全,會定期更新 leaderboard。

登入以收藏
SuperCLUE 是 CLUE 團隊(Chinese Language Understanding Evaluation)出的綜合中文 LLM 基準測試套件。跟單一測試不同,SuperCLUE 是一組涵蓋推理、廣泛知識、語言理解、程式碼、agent 能力、長 context、安全的測試組合。團隊定期更新中西模型混排的 leaderboard。 它重要的原因是:中文 AI 生態需要比 C-Eval/CMMLU 更嚴謹、更新的 benchmark,而後兩者已經飽和。SuperCLUE 有多個子賽道(SuperCLUE-Math、SuperCLUE-Agent、SuperCLUE-Code、SuperCLUE-Safety、SuperCLUE-Long)測試特定能力,leaderboard 隨新模型發佈更新。對中文市場的產品團隊,SuperCLUE 排名是最可信的訊號之一。 舉例:SuperCLUE-Long 測模型怎麼處理 100k+ token 的中文文件——needle-in-haystack、跨文件推理、長文摘要。SuperCLUE-Agent 測中文環境下的工具使用、規劃、多步驟任務完成。 限制:跟所有 benchmark 一樣,模型如果訓練資料污染了測試集就能作弊,團隊必須定期更新題庫對抗。把 leaderboard 當訊號之一,配合你自己的任務 evaluation 一起看。延伸閱讀:C-Eval、CMMLU、MMLU、evaluation。

最後更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more