HumanEval

OpenAI 提出的程式碼基準測試，164 道手寫 Python 題，用模型生成的 code 能否通過隱藏單元測試評分（pass@k）。

HumanEval 是 OpenAI 2021 Codex 論文提出的基準測試。包含 164 道手寫 Python 題目——每道有函式簽名、docstring、隱藏單元測試。模型拿到 docstring 跟簽名、生成函式內容，根據生成的 code 能不能通過測試評分。標準指標是 pass@1（第一次就過）跟 pass@10（10 次嘗試裡有過）。它重要的原因是：HumanEval 是第一個廣泛使用的 coding benchmark，也是比較模型 code 生成能力時最常被引用的數字。pass@1 = 30% 代表模型第一次就生對 code 的機率約 30%。GPT-4 上線時約 67%；目前前緣模型超過 90%。舉個題目：「def has_close_elements(numbers: List[float], threshold: float) -> bool: Check if there are any two numbers in the list that are closer than the threshold.」模型寫函式內容，eval 跑隱藏測試，評 pass/fail。限制：164 道題不算多、只有英文、只有 Python、而且很多模型訓練資料污染了網路上的解答。新的 benchmark 像 SWE-bench、LiveCodeBench、BigCodeBench 設計得更貼近真實、更難作弊。多數公開模型分數還是會報 HumanEval。延伸閱讀：code generation、MBPP、SWE-bench、evaluation。