한 줄 정의

M2.7은 MiniMax가 2026년 3월 18일 공개한 “긴 코딩 일을 여러 단계로 이어 가는 AI 모델” 이름이야. 그냥 코드를 한 번 뱉고 끝나는 모델보다 Agentic Coding처럼 계획하고, 도구를 부르고, 다시 고치고, 끝까지 밀어붙이는 쪽에 더 가깝다고 보면 돼.

이 모델로 무엇을 할 수 있나

  • 코딩 에이전트 작업: 공식 발표Hugging Face 카드에는 SWE-Pro 56.22%, SWE Multilingual 76.5, Multi SWE Bench 52.7, VIBE-Pro 55.6, Terminal-Bench 2.0 57.0, NL2Repo 39.8이 같이 적혀 있어. 숫자만 떼서 보면 벤치마크 자랑 같지만, 묶어서 읽으면 로그 분석, 버그 추적, 코드 보안, 리팩터링, 저장소 단위 작업까지 한 번에 맡기는 쪽을 노린 모델이야. MiniMax가 든 예시도 구체적이야. 운영 알림이 뜬 상황에서 배포 시점과 모니터링 지표를 엮고, 데이터베이스에서 원인을 다시 확인하고, 누락된 인덱스 마이그레이션 파일을 저장소에서 찾고, 먼저 서비스 중단 없이 인덱스를 추가하는 방식으로 급한 불을 끄는 식이야.
  • 사무 문서 에이전트 작업: MiniMax는 GDPval-AA ELO 1495, Toolathon 46.3%, MM Claw에서 40개 넘는 복잡한 skills에 대한 97% 준수율을 같이 내세워. 그래서 이 모델은 답변만 잘 쓰는 쪽보다 Word·Excel·PPT 파일을 여러 차례 고치고 결과물을 다시 내는 문서 작업 에이전트 문맥에서 더 자주 불려. 공식 카드도 템플릿과 skills를 바탕으로 파일을 바로 만들고, 사용자가 수정 지시를 여러 번 줘도 바로 다시 손볼 수 있는 산출물 형태로 내는 흐름을 예시로 잡아.
  • 로컬 배포 실험: 공개 가중치를 받아 vLLM, SGLang, Transformer 계열 구현, MLX로 배포할 수 있어. 다만 MiniMax 공식 배포 문서 기준 Linux GPU는 96GB GPU 4장 또는 144GB GPU 8장 권장이고, Mac MLX 3비트 최소 변형도 약 112GB 메모리가 필요해서 Local LLM 입문용에 가깝지는 않아.

왜 중요한가

이 모델이 자주 거론되는 이유는 벤치마크 숫자 자체보다, “모델이 자기 작업 환경을 조금씩 고치면서 다음 실험 성능까지 끌어올린다”는 서사까지 같이 밀고 있기 때문이야. MiniMax는 내부 버전의 M2.7이 프로그래밍 scaffold를 100회 넘게 반복적으로 바꾸며 내부 평가 성능을 30% 끌어올렸다고 소개해. 그래서 기사에서 M2.7이 보이면, 단순 코딩 모델이라기보다 긴 루프를 버티는 에이전트 모델로 읽는 편이 덜 틀려.

또 하나는 라이선스와 배포 조건이야. Hugging Face가중치가 공개돼 있어도 License는 비상업 사용만 기본 허용하고, 상업 사용은 MiniMax의 사전 서면 승인을 요구해. 이 점에서 gpt-ossGemma 4처럼 Apache 계열 개방 라이선스를 먼저 떠올리면 바로 판단이 어긋나.

주의해서 볼 부분

  • 공개 가중치와 상업 사용 가능은 같은 말이 아니야. M2.7은 공개 가중치 모델이지만 기본 라이선스는 non-commercial에 가까워.
  • 성능 점수와 로컬 운용 난이도도 따로 봐야 해. Benchmark 수치가 높아도, 실제 배포는 다중 GPU나 100GB 이상급 메모리를 먼저 요구해.
  • API도 일반 종량제보다 구독형 Token Plan 문맥에서 자주 설명돼. 2026년 5월 3일 기준 M2.7은 5시간마다 Starter 1,500회, Plus 4,500회, Max 15,000회 요청 한도로 나뉘어서, 실무에서는 모델 점수보다 요청 한도와 운영 방식이 먼저 걸릴 수 있어.

같이 보면 좋은 모델

  • gpt-oss: 둘 다 공개 가중치 모델로 같이 묶이기 쉽지만, gpt-ossApache 계열 개방 라이선스로 바로 상업 배포 문맥에 들어가고 M2.7은 비상업 조건과 별도 승인 여부를 먼저 확인해야 해. 비교 축이 라이선스와 배포 정책 쪽으로 분명히 갈려.
  • Gemma 4: Gemma 4로컬 배포 문맥에서 자주 같이 불리지만, M2.7은 문서 편집·Tool Use·긴 에이전트 작업 쪽 설명이 더 앞에 와. 반대로 로컬 운용 난이도와 라이선스 조건은 M2.7 쪽이 더 빡빡해서 같은 공개 가중치 모델로 바로 묶기엔 조건 차이가 커.
  • Claude Opus 4.6: MiniMax가 MLE Bench Lite 66.6%, VIBE-Pro 55.6 같은 수치를 설명할 때 Opus 4.6을 비교축으로 자주 세워. 그래서 M2.7을 읽을 때도 “오픈 가중치 대안”인지, “최상위 폐쇄형 모델에 근접한 에이전트 모델”인지 비교 문맥을 같이 봐야 해.