SuperCLUE

综合性的中文 LLM 基准测试，涵盖推理、知识、语言、代码、安全，会定期更新 leaderboard。

SuperCLUE 是 CLUE 团队（Chinese Language Understanding Evaluation）出的综合中文 LLM 基准测试套件。跟单一测试不同，SuperCLUE 是一组涵盖推理、广泛知识、语言理解、代码、agent 能力、长 context、安全的测试组合。团队定期更新中西模型混排的 leaderboard。它重要的原因是：中文 AI 生态需要比 C-Eval/CMMLU 更严谨、更新的 benchmark，而后两者已经饱和。SuperCLUE 有多个子赛道（SuperCLUE-Math、SuperCLUE-Agent、SuperCLUE-Code、SuperCLUE-Safety、SuperCLUE-Long）测试特定能力，leaderboard 随新模型发布更新。对中文市场的产品团队，SuperCLUE 排名是最可信的信号之一。举例：SuperCLUE-Long 测模型怎么处理 100k+ token 的中文文档——needle-in-haystack、跨文档推理、长文摘要。SuperCLUE-Agent 测中文环境下的工具使用、规划、多步骤任务完成。限制：跟所有 benchmark 一样，模型如果训练数据污染了测试集就能作弊，团队必须定期更新题库对抗。把 leaderboard 当信号之一，配合你自己的任务 evaluation 一起看。延伸阅读：C-Eval、CMMLU、MMLU、evaluation。