이 용어는 어디까지 신뢰할 수 있나요?

SWE-bench Verified는 원래 SWE-bench에서 뽑은 문제들 중 500개를 사람이 다시 검토해서 만든 소프트웨어 수정 benchmark야. 모델이나 코딩 에이전트가 실제 GitHub 이슈 설명을 읽고 코드 패치를 만들어, 그 문제가 정말 해결됐는지를 재는 데 쓰여.

어떻게 작동하나

각 과제에는 이슈 설명과 수정 전 저장소 상태가 주어지고, 모델은 여기에 맞는 patch를 만들어 내야 해. 평가 하네스는 Docker 환경을 띄우고 patch를 적용한 뒤 테스트를 돌려서 해결 여부를 판정해. 리더보드에서 자주 보는 Resolution rate나 평가는 제출한 과제 중 몇 개를 실제로 해결했는지 비율로 적은 값이야. 언어 모델만 따로 비교할 때는 SWE-bench 공식 사이트가 mini-SWE-agent와 minimal bash environment를 써서 조건을 최대한 맞춰 둬.

왜 중요한가

이 이름을 알아두면 모델 발표에서 나오는 점수가 무엇을 뜻하는지 덜 헷갈려. 같은 모델이라도 에이전트 루프, 도구 사용, 실행 예산이 바뀌면 결과가 달라질 수 있어서, SWE-bench Verified 점수는 모델 자체와 운영 scaffold가 섞인 신호로 읽는 편이 맞아. 그래도 이 benchmark가 오래 쓰인 이유는 분명해. 원래 Full benchmark 2,294개보다 작은 500개 셋이지만, 사람이 다시 검토해 문제 설명과 테스트 품질을 올리려 했기 때문에 한동안 코딩 능력 비교의 공통 기준처럼 쓰였어.

주의해서 볼 점

2026년 2월 23일에 OpenAI는 SWE-bench Verified가 frontier coding capability를 재는 기준으로는 더 이상 적합하지 않다고 공개적으로 정리했고, 대신 SWE-bench Pro를 권장했어. 이유는 두 가지가 컸는데, 공개 저장소 기반 benchmark라 학습 오염 가능성이 높고 일부 문제는 테스트 설계 자체가 올바른 해결책을 밀어내기 때문이야. 또 원본 SWE-bench가 12개 open-source Python 저장소에서 왔다는 점을 생각하면, 이 점수 하나로 다른 언어, 사내 코드베이스, 장기 협업형 개발까지 대신 설명하긴 무리가 있어.

이 항목을 참조하는 위키

포맷 v1 가이드 wiki 3.1.2

팩트 체크

통과 · 2026-04-29 KST

검증 생성: AI + 편집 검토 · 2026-04-29 상태: 통과

통과 원문 대조 검증 출처 3

입력 파일에 붙은 세 개 기사 요약을 대조해 보니 모델 점수 홍보가 앞서 있어서, 이 페이지는 점수 나열을 덜고 SWE-bench Verified 자체의 뜻과 현재 한계로 초점을 다시 맞췄다.

독자 문제 대조: 입력 소스는 특정 모델 점수를 먼저 말하지만, 독자는 그 전에 SWE-bench Verified가 무엇인지부터 알아야 해서 정의와 평가 방식을 맨 앞에 뒀다.
세 기사 요약이 공통으로 전제하는 대상은 특정 모델 내부 구조가 아니라 `SWE-bench Verified`라는 benchmark 이름이다. 그래서 본문도 모델 소개가 아니라 평가셋 설명으로 다시 썼다.
sectionPlan의 다섯 제목은 그대로 유지했고, 모델별 점수 비교나 로컬 실행 이야기는 이 용어 자체를 설명하는 데 필요한 범위만 남겼다.

입력 소스만 따라가면 vendor score 소개문이 되기 쉬워서, concept 페이지 기준으로 설명 축을 다시 잡았다.
sourceDetails는 benchmark의 정의보다 활용 장면을 간접적으로 보여 주는 보조 근거로만 쓰는 편이 안전했다.

통과 교차 검증 검증 출처 5

SWE-bench 공식 Verified 페이지, SWE-bench FAQ와 Overview, OpenAI의 2024-08-13 출시 글과 2026-02-23 오염 분석 글을 교차검증해 정의, 평가 방식, 최신 해석 기준을 맞췄다.

비교 기준: swebench.com의 Verified 정의, FAQ의 평가 절차와 지표, OpenAI의 출시 배경과 2026년 경고가 서로 같은 용어를 가리키는지 봤다.
SWE-bench 공식 페이지와 FAQ는 Verified를 SWE-bench에서 뽑은 500개 human-validated subset으로 설명하고, patch 적용 후 테스트로 해결 여부를 판정한다고 적는다.
OpenAI의 2024-08-13 글은 OpenAI와 SWE-bench 저자들이 함께 Verified를 공개했다고 설명하고, 2026-02-23 글은 frontier model 비교에는 SWE-bench Pro를 권장한다고 적는다.
공식 Verified 페이지는 언어 모델 직접 비교를 mini-SWE-agent의 minimal bash environment로 맞춘다고 적는다. 그래서 본문도 점수를 모델 순수 능력과 완전히 같은 것으로 쓰지 않았다.

공식 SWE-bench 쪽은 정의와 평가 절차를, OpenAI 쪽은 출시 배경과 2026년 이후 해석 변화를 보강해 줬다.
같은 용어라도 2024년의 신뢰성 개선 맥락과 2026년의 오염 경고 맥락을 같이 봐야 현재 설명이 맞는다.

통과 수치 검증 검증 출처 4

500개 Verified, 2,294개 Full, 1,699개 검토 대상, easy 196개와 hard 45개 slice를 다시 확인했고, 본문에는 해석에 필요한 숫자만 남겼다.

Verified는 500개 과제고, SWE-bench Full은 2,294개 과제다. 둘 다 SWE-bench 공식 FAQ와 Overview에 적혀 있다.
OpenAI의 2026-02-23 분석 글은 Verified를 만들 때 1,699개 문제를 검토해 500개 curated set으로 줄였다고 적는다.
OpenAI의 2024-08-13 소개 글은 difficulty slice로 easy 196개와 hard 45개를 따로 공개했다고 적는다.
SWE-bench FAQ는 `Resolution rate`를 제출된 과제 중 해결된 비율로 설명한다. 그래서 본문도 `% Resolved`를 막연한 점수가 아니라 해결 비율로 풀어 적었다.

본문 숫자는 500, 2,294처럼 의미가 분명한 값만 남겼다.
개별 모델 점수는 scaffold와 실행 버전 영향이 커서 용어 정의에는 넣지 않는 편이 맞았다.

통과 비판 검토 검증 출처 5

SWE-bench Verified 점수를 곧바로 현업 코딩 능력으로 읽는 과장을 막으려고 오염, 테스트 결함, Python 저장소 편향, bash-only 비교 세팅을 같이 적었다.

OpenAI는 2026-02-23 글에서 SWE-bench Verified가 increasingly contaminated라고 적고, 다른 모델 개발사에도 이 점수 보고를 멈추라고 권했다.
같은 글은 자주 실패한 138개 과제를 감사했을 때 59.4%에서 테스트 설계나 문제 설명에 material issues가 있었다고 적는다. 그러니 낮은 점수가 전부 모델 한계라고 단정하면 틀릴 수 있다.
원본 SWE-bench는 12개 open-source Python repositories에서 왔다. 그래서 다른 언어, 비공개 사내 저장소, 장기 협업형 개발까지 이 점수 하나로 대신 설명하면 범위를 넘어서게 된다.
공식 Verified 리더보드의 LM direct comparison은 mini-SWE-agent의 minimal bash environment를 쓴다. 그래서 IDE 보조 기능이나 자체 도구 체인까지 포함한 제품 경험과는 그대로 같지 않다.

2026년 기준으로 SWE-bench Verified는 여전히 중요한 역사적 benchmark지만, 최전선 모델 비교의 단독 기준으로 쓰기엔 무리가 있다.
점수를 읽을 때는 benchmark 이름만 보지 말고 실행 scaffold와 contamination 여부를 같이 보는 편이 안전하다.

출처: Pandaily , Officechai — 벤치마크 비교 , BuildFastWithAI — SWE-bench 73.4

SWE-bench Verified (스위벤치 베리파이드)

전체 AI 기술 맵에서의 위치

한 줄 정의

어떻게 작동하나

왜 중요한가

주의해서 볼 점

관련 용어

이 항목을 참조하는 위키