이 용어는 어디까지 신뢰할 수 있나요?

OpenAI의 Codex 논문은 HumanEval을 164개 손작성 프로그래밍 문제(programming problem)로 설명해. 각 문제에는 함수 시그니처(function signature), 설명 주석(docstring), 함수 본문(body), 여러 단위 테스트(unit test)가 있고, 논문 기준 평균 테스트 수는 7.7개야. 실제 평가에서는 모델이 프롬프트(prompt)를 보고 완성 코드(completion)를 만들고, 평가 장치(harness)가 그 완성 코드를 실행해 통과 여부를 계산해.

OpenAI의 human-eval 저장소 예시도 이 흐름을 그대로 보여 줘. 샘플은 task_id와 completion을 JSONL 한 줄로 저장하고, evaluate_functional_correctness가 결과 파일을 만들면서 pass@1, pass@10, pass@100을 출력해. 예시 코드에는 과제당 200개 샘플을 만드는 설정도 나와서, pass@k가 단일 답변 점수와 다르다는 걸 바로 볼 수 있어.

중요한 건 HumanEval이 텍스트가 정답 코드와 얼마나 비슷한지보다, 실행했을 때 테스트를 통과하느냐를 본다는 점이야. 그래서 코드 생성 모델 평가에서는 BLEU 같은 문자열 유사도보다 훨씬 직접적인 신호로 쓰였어.

왜 중요한가

HumanEval은 모델 카드와 논문에서 코딩 성능을 빠르게 보여 주는 공통 숫자로 자주 나와. 예를 들어 어떤 모델 카드가 “HumanEval 96.91% pass@1” 같은 값을 내세우면, 그 말은 함수 단위 과제에서 한 번 생성한 답이 테스트를 통과한 비율을 말하는 쪽에 가까워.

이 숫자는 모델의 기본 코딩 감각을 보는 첫 필터로는 쓸 만해. 함수 단위 로직, 경계 조건(edge case) 처리, 간단한 알고리즘 구현을 모델이 얼마나 잘 맞히는지 한 줄로 비교할 수 있으니까. 특히 여러 27B급이나 30B급 모델을 로컬에서 시험할 때는 긴 에이전트 실행(agent run)을 돌리기 전에 빠르게 후보를 줄이는 데 도움이 돼.

하지만 HumanEval 점수 하나로 코딩 에이전트 도입을 결정하면 위험해. 실제 저장소 작업은 파일을 찾고, 기존 테스트를 이해하고, 실패 로그를 좁히고, 리뷰 가능한 변경 묶음(diff)을 만드는 일이 같이 붙어. 이런 작업은 HumanEval보다 SWE-bench Verified나 팀 내부 Eval에 더 가까워.

주의해서 볼 점

첫째, pass@k의 k를 꼭 봐야 해. pass@1은 한 번에 맞힌 비율이고, pass@100은 여러 번 뽑아 하나라도 맞는지를 보는 값이야. 둘을 같은 “정답률”처럼 나란히 놓으면 모델의 실제 사용감이 크게 부풀어 보여.

둘째, 실행 조건을 같이 봐야 해. 모델 카드에 나온 HumanEval 결과는 샘플 정리 방식, 실행 환경, 추론 설정, 검증 절차에 영향을 받을 수 있어. 해당 v2 모델 카드도 HumanEval 수치와 함께 사고 흐름(chain-of-thought) 길이 감소, 토큰당 정답 수(correct solutions per token) 증가를 말하지만, 이건 그 카드가 설명한 Unsloth와 vLLM의 BF16 환경 안에서 읽는 게 안전해.

셋째, HumanEval은 작은 Python 함수 구현에 강한지 보는 평가야. 장기 프로젝트 수정, 멀티파일 리팩터, 패키지 설치 문제, flaky test 대응, 보안 리뷰까지 한 번에 보여 주지는 않아. 그래서 모델 발표에서 HumanEval 점수가 높아도, 실제 도입 전에는 내 코드베이스에서 작은 회귀 eval을 따로 돌려야 해.

이 항목을 참조하는 위키

포맷 v3 가이드 wiki 3.2.0

팩트 체크

통과 · 2026-05-07 KST

검증 생성: AI + 편집 검토 · 2026-05-07 상태: 통과

통과 원문 대조 검증 출처 4

정의는 OpenAI 논문과 저장소 기준으로 맞추고, 허깅페이스 쪽은 사용 예시로만 봤어.

독자 문제 대조: 코딩 에이전트 전체 능력으로 읽기 쉬운데, 실제로는 설명 주석(docstring)에서 파이썬 함수 구현을 만들고 테스트로 채점하는 평가셋이라는 점부터 갈라 봐야 해.
Codex 논문은 이 벤치마크를 프로그램 합성의 함수 정답성(functional correctness) 평가셋으로 소개하고, Codex가 28.8% pass@1을 기록했다고 적어.
human-eval 저장소는 평가 장치(harness)와 JSONL 샘플 형식을 보여 주며, 결과를 pass@1, pass@10, pass@100 형태로 계산해.
v2 모델 카드는 96.91% pass@1을 자체 비교 지표로 제시하지만, 그 숫자는 카드 안의 실험 조건에서 읽어야 해.

통과 교차 검증 검증 출처 5

논문, 저장소, 모델 카드, 일반 벤치마크 정의를 나눠 보고 본문 범위를 다시 좁혔어.

비교 기준: 용어 정의는 OpenAI 자료에서 잡고, Hugging Face 페이지는 최신 모델 발표에서 이 벤치마크가 어떻게 쓰이는지 보는 보조 근거로만 썼어.
Wikipedia의 벤치마크 설명은 표준 테스트와 시행(trial)으로 상대 성능을 재는 방식이라고 풀어. 본문에서 코드 생성용 사례로 놓은 건 이 범위와 맞아.
v1 허깅페이스 페이지는 추론 증류(reasoning distillation)와 사용법을 강조하지만, 열람한 HTML 텍스트 기준으로 해당 수치를 전면에 두지는 않았어.
v2 카드는 HumanEval+ 결과, 사고 흐름(chain-of-thought) 길이, 토큰당 정답 수(correct solutions per token)를 함께 내세워서, 점수와 추론 비용을 따로 읽어야 한다는 본문 경고와 맞아.

통과 수치 검증 검증 출처 3

과제 수, 테스트 수, pass@k 출력, 모델 카드 수치를 서로 다른 맥락으로 나눠 확인했어.

논문은 164개 손작성 프로그래밍 문제(programming problem)로 구성됐고, 각 항목이 함수 시그니처(function signature), 설명 주석(docstring), 함수 본문(body), 여러 단위 테스트(unit test)를 포함하며 평균 7.7개 테스트가 있다고 적어.
저장소 예시는 task당 200개 샘플을 만드는 흐름과 `pass@1`, `pass@10`, `pass@100` 출력 형식을 보여 줘.
논문 초록의 기준 숫자는 Codex 28.8%, GPT-3 0%, GPT-J 11.4% pass@1이고, 100 samples per problem에서는 70.2%를 해결했다고 적어.
v2 카드는 96.91% pass@1, 사고 흐름 길이 약 24% 감소, 토큰당 정답 수 31.6% 증가를 주장해. 본문은 이 값을 독립 리더보드 숫자로 확대하지 않았어.

통과 비판 검토 검증 출처 5

이 점수를 실제 소프트웨어 개발 능력 전체로 과장하지 않도록 실패 가능성과 평가 범위를 따로 봤어.

작은 함수 구현 과제 중심이라, 대형 저장소 탐색, 파일 수정, 테스트 환경 복구, 리뷰 같은 에이전틱 코딩(agentic coding) 작업 전체를 대신하지 않아.
pass@100은 여러 샘플 중 하나가 맞는지를 보는 지표라서, 사용자가 한 번 물었을 때 바로 맞는 능력과 다르게 읽어야 해.
모델 발표의 관련 수치는 실행 환경, 샘플 정리, 검증 방식에 영향을 받아. 공식 저장소나 논문 숫자와 같은 층위로 섞으면 안 돼.
벤치마크 일반론에서도 공급사가 유리한 점수만 내세울 수 있다는 경고가 있어. 그래서 본문은 첫 신호로 쓰되, 제품 도입 판단은 별도 평가로 다시 보라고 적었어.

출처: OpenAI human-eval repository , Evaluating Large Language Models Trained on Code , Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 model card , Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled model card , Benchmark (computing)

HumanEval(휴먼이밸)

전체 AI 기술 맵에서의 위치

한 줄 정의

어떻게 작동하나

왜 중요한가

주의해서 볼 점

관련 용어

관련 용어

이 항목을 참조하는 위키