한 줄 정의

SWE-Pro는 보통 SWE-Bench Pro 점수를 짧게 적은 표기야. Scale의 공식 이름은 SWE-Bench Pro고, 모델 카드나 출시 글에서는 이 긴 이름을 SWE-Pro 56.22%처럼 헤드라인용으로 줄여 쓰는 경우가 많아.

별도 새 벤치마크라고 보기보다, 긴 소프트웨어 엔지니어링 평가 이름을 발표문 문맥에 맞게 압축한 표기에 가깝다고 보면 덜 헷갈려.

어떻게 작동하나

실제 기준이 되는 평가SWE-Bench Pro 쪽이야. Scale 설명 기준으로 보면 이 평가는 41개 저장소에서 모은 1,865개 문제를 쓰고, public 731개, held-out 858개, commercial 276개로 나눠서 장기형 소프트웨어 이슈 해결 능력을 본다.

SWE-Pro라는 말이 어디서 나오는지도 예시가 분명해. MiniMaxHugging Face 모델 카드MiniMax M2.7 소개를 같이 보면, 본문에서는 On SWE-Pro, M2.7 achieved 56.22%라고 적지만 같은 페이지의 evaluation results 영역에서는 SWE Bench Pro on ScaleAI/SWE-bench_Pro와 56.2 점수를 직접 연결해 둔다. 그러니까 실무에서는 SWE-Pro를 새 평가 이름으로 읽기보다, SWE-Bench Pro 점수를 짧게 붙인 표기라고 읽는 편이 맞아.

왜 중요한가

이 차이를 알아두면 모델 발표를 읽을 때 점수 해석이 덜 틀어져. SWE-Pro 56.22%는 자동완성 점수나 짧은 코드 퍼즐 점수가 아니라, 낯선 코드베이스에서 여러 파일을 건드리며 문제를 끝까지 푸는 Agentic Coding 성격의 평가를 가리키는 경우가 많아.

또 출시 문구를 읽을 때도 도움이 돼. MiniMax는 2026년 3월 18일 MiniMax M2.7 공식 발표에서 SWE-Pro 56.22, Terminal-Bench 2.0 57.0, VIBE-Pro 55.6을 같이 묶어 보여 줬어. 이런 묶음은 “이 모델이 긴 엔지니어링 작업에서 어느 정도 버티는가”를 강조하려는 문맥이지, 코딩 전반을 한 숫자로 요약한 절대 점수라고 읽는 건 아니야.

주의해서 볼 점

가장 흔한 오해는 SWE-Pro를 SWE-Bench Pro와 다른 별도 평가 기준처럼 읽는 거야. 공개 소스 기준으로는 공식 이름이 SWE-Bench Pro고, SWE-Pro는 그 이름을 줄인 표기로 보는 편이 더 안전해.

숫자 표기도 깔끔하게 맞아떨어지지 않을 수 있어. 같은 MiniMax 자료 안에서도 본문은 56.22, evaluation results는 56.2로 적혀 있어. 이런 차이는 보통 반올림이나 표시 자리수 문제라서, 도입 검토나 내부 보고에 쓸 때는 짧은 헤드라인보다 원문 평가 출처와 표기 자릿수를 같이 적어 두는 편이 낫다.

마지막으로, SWE-Pro 숫자만 보고 모델의 코딩 능력 전체를 결론내리면 과해. 이 표기는 SWE-Bench Pro라는 특정 장기형 소프트웨어 이슈 평가를 가리키는 경우가 대부분이니까, 다른 평가 기준이나 실제 도입 환경과는 따로 비교해서 읽어야 해.