한 줄 정의
SWE-bench Verified는 원래 SWE-bench에서 뽑은 문제들 중 500개를 사람이 다시 검토해서 만든 소프트웨어 수정 benchmark야. 모델이나 코딩 에이전트가 실제 GitHub 이슈 설명을 읽고 코드 패치를 만들어, 그 문제가 정말 해결됐는지를 재는 데 쓰여.
어떻게 작동하나
각 과제에는 이슈 설명과 수정 전 저장소 상태가 주어지고, 모델은 여기에 맞는 patch를 만들어 내야 해. 평가 하네스는 Docker 환경을 띄우고 patch를 적용한 뒤 테스트를 돌려서 해결 여부를 판정해. 리더보드에서 자주 보는 Resolution rate나 평가는 제출한 과제 중 몇 개를 실제로 해결했는지 비율로 적은 값이야. 언어 모델만 따로 비교할 때는 SWE-bench 공식 사이트가 mini-SWE-agent와 minimal bash environment를 써서 조건을 최대한 맞춰 둬.
왜 중요한가
이 이름을 알아두면 모델 발표에서 나오는 점수가 무엇을 뜻하는지 덜 헷갈려. 같은 모델이라도 에이전트 루프, 도구 사용, 실행 예산이 바뀌면 결과가 달라질 수 있어서, SWE-bench Verified 점수는 모델 자체와 운영 scaffold가 섞인 신호로 읽는 편이 맞아. 그래도 이 benchmark가 오래 쓰인 이유는 분명해. 원래 Full benchmark 2,294개보다 작은 500개 셋이지만, 사람이 다시 검토해 문제 설명과 테스트 품질을 올리려 했기 때문에 한동안 코딩 능력 비교의 공통 기준처럼 쓰였어.
주의해서 볼 점
2026년 2월 23일에 OpenAI는 SWE-bench Verified가 frontier coding capability를 재는 기준으로는 더 이상 적합하지 않다고 공개적으로 정리했고, 대신 SWE-bench Pro를 권장했어. 이유는 두 가지가 컸는데, 공개 저장소 기반 benchmark라 학습 오염 가능성이 높고 일부 문제는 테스트 설계 자체가 올바른 해결책을 밀어내기 때문이야. 또 원본 SWE-bench가 12개 open-source Python 저장소에서 왔다는 점을 생각하면, 이 점수 하나로 다른 언어, 사내 코드베이스, 장기 협업형 개발까지 대신 설명하긴 무리가 있어.