이 용어는 어디까지 신뢰할 수 있나요?

실제 기준이 되는 평가는 SWE-Bench Pro 쪽이야. Scale 설명 기준으로 보면 이 평가는 41개 저장소에서 모은 1,865개 문제를 쓰고, public 731개, held-out 858개, commercial 276개로 나눠서 장기형 소프트웨어 이슈 해결 능력을 본다.

SWE-Pro라는 말이 어디서 나오는지도 예시가 분명해. MiniMax의 Hugging Face 모델 카드와 MiniMax M2.7 소개를 같이 보면, 본문에서는 On SWE-Pro, M2.7 achieved 56.22%라고 적지만 같은 페이지의 evaluation results 영역에서는 SWE Bench Pro on ScaleAI/SWE-bench_Pro와 56.2 점수를 직접 연결해 둔다. 그러니까 실무에서는 SWE-Pro를 새 평가 이름으로 읽기보다, SWE-Bench Pro 점수를 짧게 붙인 표기라고 읽는 편이 맞아.

왜 중요한가

이 차이를 알아두면 모델 발표를 읽을 때 점수 해석이 덜 틀어져. SWE-Pro 56.22%는 자동완성 점수나 짧은 코드 퍼즐 점수가 아니라, 낯선 코드베이스에서 여러 파일을 건드리며 문제를 끝까지 푸는 Agentic Coding 성격의 평가를 가리키는 경우가 많아.

또 출시 문구를 읽을 때도 도움이 돼. MiniMax는 2026년 3월 18일 MiniMax M2.7 공식 발표에서 SWE-Pro 56.22, Terminal-Bench 2.0 57.0, VIBE-Pro 55.6을 같이 묶어 보여 줬어. 이런 묶음은 “이 모델이 긴 엔지니어링 작업에서 어느 정도 버티는가”를 강조하려는 문맥이지, 코딩 전반을 한 숫자로 요약한 절대 점수라고 읽는 건 아니야.

주의해서 볼 점

가장 흔한 오해는 SWE-Pro를 SWE-Bench Pro와 다른 별도 평가 기준처럼 읽는 거야. 공개 소스 기준으로는 공식 이름이 SWE-Bench Pro고, SWE-Pro는 그 이름을 줄인 표기로 보는 편이 더 안전해.

숫자 표기도 깔끔하게 맞아떨어지지 않을 수 있어. 같은 MiniMax 자료 안에서도 본문은 56.22, evaluation results는 56.2로 적혀 있어. 이런 차이는 보통 반올림이나 표시 자리수 문제라서, 도입 검토나 내부 보고에 쓸 때는 짧은 헤드라인보다 원문 평가 출처와 표기 자릿수를 같이 적어 두는 편이 낫다.

마지막으로, SWE-Pro 숫자만 보고 모델의 코딩 능력 전체를 결론내리면 과해. 이 표기는 SWE-Bench Pro라는 특정 장기형 소프트웨어 이슈 평가를 가리키는 경우가 대부분이니까, 다른 평가 기준이나 실제 도입 환경과는 따로 비교해서 읽어야 해.

이 항목을 참조하는 위키

포맷 v3 가이드 wiki 3.2.0

팩트 체크

통과 · 2026-05-03 KST

검증 생성: AI + 편집 검토 · 2026-05-03 상태: 통과

통과 원문 대조

SWE-Pro를 별도 새 벤치마크가 아니라 SWE-Bench Pro의 축약 표기로 읽는 근거를 원문끼리 직접 맞춰 봤어.

독자 문제 대조: 모델 발표에서 `SWE-Pro 56.22%` 같은 문구를 봤을 때, 이게 새 평가 이름인지 기존 SWE-Bench Pro를 줄여 적은 건지 먼저 가를 수 있어야 해.
Scale의 원문 제목과 본문은 공식 이름을 `SWE-Bench Pro`로 적고, 1,865개 문제와 41개 저장소, 731 public·858 held-out·276 commercial 분할을 같이 제시해. 이 페이지는 그 공식 이름을 기준선으로 잡았어.
MiniMax Hugging Face 모델 카드는 본문에서 `On SWE-Pro, M2.7 achieved 56.22%`라고 적으면서도, evaluation results 행에서는 `SWE Bench Pro on ScaleAI/SWE-bench_Pro`와 56.2 점수를 직접 연결해 보여 줘.
MiniMax 공식 발표도 2026년 3월 18일 글에서 `On the SWE-Pro benchmark, M2.7 scored 56.22%`라고 적어. 이 페이지가 SWE-Pro를 출시 문구용 짧은 표기로 설명한 이유가 여기서 바로 확인돼.

통과 교차 검증 검증 출처 4

공식 벤치마크 문서, 모델 카드, 벤더 발표, 외부 기사까지 나란히 보고 이름과 숫자가 어떻게 쓰이는지 교차 확인했어.

비교 기준: 공식 평가 이름은 무엇이고, 모델 발표에서는 그 이름을 어떻게 줄여 쓰는지 먼저 갈라서 봤어.
Scale은 일관되게 `SWE-Bench Pro`를 쓰고, MiniMax의 Hugging Face 카드와 공식 발표는 같은 성능 맥락에서 `SWE-Pro`를 써. 그래서 이 페이지는 둘을 경쟁 개념으로 나누지 않았어.
MarkTechPost도 같은 MiniMax 발표를 따라 `56.22% on SWE-Pro and 57.0% on Terminal Bench 2`라고 적어. 외부 보도에서도 축약 표기가 그대로 유통된다는 점까지 확인했어.

통과 수치 검증

본문에 남긴 숫자는 벤치마크 구조 숫자와 점수 표기 차이만 추려 다시 확인했어.

Scale 원문 수치인 1,865개 문제, 41개 저장소, 731 public, 858 held-out, 276 commercial 분할을 그대로 맞췄어.
MiniMax Hugging Face 카드 본문은 56.22를 쓰고, evaluation results 영역은 56.2를 보여 줘. 이 페이지는 이를 반올림 차이로 설명했어.
MiniMax 공식 발표는 SWE-Pro 56.22와 Terminal Bench 2 57.0을 같이 적어 두고 있어. 본문에서도 두 숫자를 같은 발표 문맥 안에서만 인용했어.

통과 비판 검토

SWE-Pro를 새로운 독립 표준으로 과장하거나, 점수 하나를 코딩 전반 성능으로 넓혀 읽는 오해를 막는 쪽으로 다시 점검했어.

이 페이지는 `SWE-Pro = 별도 독립 평가`라고 단정하지 않고, 공개 소스에서 확인되는 범위인 `SWE-Bench Pro를 줄여 적은 표기`로만 설명해.
Scale 설명을 기준으로 SWE-Bench Pro는 장기형 소프트웨어 이슈 해결 평가야. 그래서 SWE-Pro 숫자를 `모든 코딩 능력` 점수처럼 번역하지 않게 본문에서 범위를 좁혔어.
벤더 발표와 모델 카드는 출시 문구 성격이 강하니까, 도입 판단에서는 짧은 이름보다 공식 평가 이름과 평가 출처를 같이 보라고 경고를 남겼어.

SWE-Pro는 점수 헤드라인에서 자주 보이지만, 실제 해석 기준은 SWE-Bench Pro 원문 쪽에 있어.

출처: Scale Labs — SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks? , Hugging Face — MiniMaxAI/MiniMax-M2.7 , MiniMax — MiniMax M2.7: Early Echoes of Self-Evolution , MarkTechPost — MiniMax M2.7 coverage

SWE-Pro(에스더블유이 프로 표기)

전체 AI 기술 맵에서의 위치

한 줄 정의

어떻게 작동하나

왜 중요한가

주의해서 볼 점

관련 용어

이 항목을 참조하는 위키