한 줄 정의
VIBE-Pro(바이브 프로)는 AI 모델이 저장소 단위 제품 요구사항을 끝까지 구현하는지 보는 벤치마크야. MiniMax는 2026년 3월 18일 MiniMax M2.7 발표에서 이 이름을 저장소 수준 코드 생성 벤치마크(repo-level code generation benchmark)로 소개했고, 웹(Web), 안드로이드(Android), iOS, 시뮬레이션(simulation) 요구사항을 직접 예로 들었어.
그래서 VIBE-Pro 55.6은 짧은 함수 완성이나 자동완성 점수라기보다, 여러 파일과 실행 환경을 건드리는 에이전트형 코딩(Agentic Coding) 작업을 어느 정도 끝까지 밀 수 있는지 보는 신호에 가까워.
어떻게 작동하나
공개된 설명만 놓고 보면, VIBE-Pro는 단일 코드 조각보다 “요구사항을 받아 실제 프로젝트 형태로 구현하는가”에 초점을 둬. Hugging Face 모델 카드와 MiniMax 공식 발표는 M2.7의 코딩 성능을 설명하면서 아래 점수를 한 묶음으로 제시해.
- SWE-Pro 56.22: 긴 소프트웨어 이슈 해결 쪽 신호
- SWE Multilingual 76.5: 언어가 섞인 저장소 작업 쪽 신호
- Multi SWE Bench 52.7: 여러 저장소 단위 작업 신호
- VIBE-Pro 55.6: 웹, 안드로이드, iOS, 시뮬레이션 같은 프로젝트 전체 구현 신호
- Terminal-Bench 2.0 57.0: 터미널에서 명령을 실행하고 검증하는 신호
- NL2Repo 39.8: 자연어 요구사항에서 저장소 구현으로 넘어가는 신호
이 묶음을 그대로 읽으면 VIBE-Pro는 “코딩을 잘하나”보다 “제품 요구사항을 저장소에 반영하고 결과물을 낼 수 있나” 쪽에 더 가깝다. UI만 그럴듯하게 만드는 평가도 아니고, 한 파일 패치만 보는 평가도 아니야.
왜 중요한가
이 이름을 알아두면 모델 발표의 코딩 점수를 덜 헷갈려. VIBE-Pro 55.6은 M2.7이 저장소 단위 구현을 얼마나 버티는지 보여 주려는 숫자야. 같은 줄에 SWE-Pro나 Terminal-Bench 2.0이 붙어 있으면, MiniMax가 이 모델을 짧은 코드 생성기보다 긴 개발 작업용 에이전트 모델로 밀고 있다는 뜻으로 읽는 게 자연스러워.
실무에서는 후보 모델을 거르는 데 쓸 수 있어. 예를 들어 사내 도구의 웹 화면, 모바일 앱 수정, 시뮬레이션 코드, 테스트까지 한 번에 맡겨 보려는 팀이라면 이 저장소 단위 평가가 단순 채팅 점수보다 더 가까운 신호야.
비교해서 볼 기준
- SWE-Pro: 기존 코드베이스의 긴 이슈 해결 능력을 더 직접적으로 봐. 제품 요구사항을 새 화면이나 앱 단위로 구현하는 쪽을 보려면 VIBE-Pro가 더 가까워.
- Terminal-Bench 2.0: 터미널 명령 실행, 로그 확인, 테스트 통과 루프를 더 많이 봐. VIBE-Pro는 그보다 웹·모바일·시뮬레이션 요구사항을 산출물 형태로 끝내는 쪽에 무게가 있어.
- NL2Repo 39.8: 자연어 요구사항에서 저장소 구조를 만드는 장기 생성 평가로 읽으면 돼. VIBE-Pro와 같이 보면 “새 프로젝트를 만들기”와 “제품 요구사항을 완성하기” 사이의 차이가 보인다.
- MiniMax M2.7: 이 점수가 가장 많이 보이는 공개 문맥이야. 다만 모델 자체의 라이선스와 배포 조건은 벤치마크 점수와 분리해서 봐야 해.
주의해서 볼 점
가장 먼저 볼 건 공개 범위야. 현재 확보한 출처는 VIBE-Pro를 프로젝트 전체 구현과 저장소 수준 코드 생성 평가로 설명하지만, 전체 과제 수나 채점 세부 규칙을 충분히 공개하지는 않아. 그래서 55.6을 절대 순위처럼 쓰기보다, M2.7 공개 문맥에서 보이는 저장소 단위 성능 신호로 읽는 편이 안전해.
또 VIBE-Pro를 넓은 의미의 Vibe Coding 품질 점수로 읽으면 헷갈려. 이름에 vibe가 들어가지만, 여기서 중요한 축은 분위기 좋은 결과물이나 데모 감상이 아니라 웹, 안드로이드, iOS, 시뮬레이션 요구사항을 실제 저장소 작업으로 끝내는지야.
마지막으로 점수와 도입 가능성은 별개야. M2.7은 VIBE-Pro 55.6을 내세우지만, 가중치 공개와 상업 사용 허가, 로컬 배포 장비, API 한도는 따로 봐야 해. 벤치마크 숫자가 좋아도 실제 제품에 붙일 수 있는지는 라이선스와 운영 조건을 다시 확인해야 한다.