SuperCLUE 是 CLUE 团队(Chinese Language Understanding Evaluation)出的综合中文 LLM 基准测试套件。跟单一测试不同,SuperCLUE 是一组涵盖推理、广泛知识、语言理解、代码、agent 能力、长 context、安全的测试组合。团队定期更新中西模型混排的 leaderboard。 它重要的原因是:中文 AI 生态需要比 C-Eval/CMMLU 更严谨、更新的 benchmark,而后两者已经饱和。SuperCLUE 有多个子赛道(SuperCLUE-Math、SuperCLUE-Agent、SuperCLUE-Code、SuperCLUE-Safety、SuperCLUE-Long)测试特定能力,leaderboard 随新模型发布更新。对中文市场的产品团队,SuperCLUE 排名是最可信的信号之一。 举例:SuperCLUE-Long 测模型怎么处理 100k+ token 的中文文档——needle-in-haystack、跨文档推理、长文摘要。SuperCLUE-Agent 测中文环境下的工具使用、规划、多步骤任务完成。 限制:跟所有 benchmark 一样,模型如果训练数据污染了测试集就能作弊,团队必须定期更新题库对抗。把 leaderboard 当信号之一,配合你自己的任务 evaluation 一起看。延伸阅读:C-Eval、CMMLU、MMLU、evaluation。