跳到內容

指標

HumanEval

OpenAI 提出的程式碼基準測試,164 道手寫 Python 題,用模型生成的 code 能否通過隱藏單元測試評分(pass@k)。

登入以收藏
HumanEval 是 OpenAI 2021 Codex 論文提出的基準測試。包含 164 道手寫 Python 題目——每道有函式簽名、docstring、隱藏單元測試。模型拿到 docstring 跟簽名、生成函式內容,根據生成的 code 能不能通過測試評分。標準指標是 pass@1(第一次就過)跟 pass@10(10 次嘗試裡有過)。 它重要的原因是:HumanEval 是第一個廣泛使用的 coding benchmark,也是比較模型 code 生成能力時最常被引用的數字。pass@1 = 30% 代表模型第一次就生對 code 的機率約 30%。GPT-4 上線時約 67%;目前前緣模型超過 90%。 舉個題目:「def has_close_elements(numbers: List[float], threshold: float) -> bool: Check if there are any two numbers in the list that are closer than the threshold.」模型寫函式內容,eval 跑隱藏測試,評 pass/fail。 限制:164 道題不算多、只有英文、只有 Python、而且很多模型訓練資料污染了網路上的解答。新的 benchmark 像 SWE-bench、LiveCodeBench、BigCodeBench 設計得更貼近真實、更難作弊。多數公開模型分數還是會報 HumanEval。延伸閱讀:code generation、MBPP、SWE-bench、evaluation。

最後更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more

HumanEval · BuilderWorld