무슨 일이 일어났나

MiniMax가 새 모델 M3를 공개했어. 1M 토큰 컨텍스트에 이미지·영상까지 받는 멀티모달이고, 코딩 벤치인 SWE-Bench Pro에서 59.0%를 찍었다. Terminal-Bench 2.1은 66.0%, MCP Atlas는 74.2%야. MiniMaxGPT-5.5Gemini 3.1 Pro를 앞서고 Claude Opus 4.7에 근접한다고 주장하는데, 이건 자체 발표라 그대로 믿기보단 참고로 보는 게 맞아.

어떻게 이렇게 빨라졌나

핵심은 자체 희소 어텐션인 MSA(MiniMax Sparse Attention)야. 긴 문맥에서 모든 토큰을 다 보지 않고 필요한 부분만 골라 계산하는 방식이라, 1M 구간에서 토큰당 연산이 이전 세대의 1/20로 줄었거든. 그 덕에 prefill은 9배, decode는 15배 넘게 빨라졌다. 긴 컨텍스트가 비싸고 느려서 못 쓰던 문제를 정면으로 깎아낸 셈이야.

가격과 로컬 구동의 현실

토큰 플랜은 세 단계로 나뉘어.

  • Plus ($20/월): 가볍게 붙여 쓰는 입문용
  • Max ($50/월): 토큰 소모가 큰 상시 작업용
  • Ultra ($120/월): 장문·멀티모달을 많이 돌리는 헤비 유저용

문제는 “오픈웨이트”라는 말의 함정이야. 가중치가 풀려도 r/LocalLLaMA에선 벌써 양자화해도 100GB 넘는 VRAM이 든다는 얘기가 돈다. Blackwell(sm_120) 같은 최신 카드 얘기가 같이 나오는 이유지.

주의해서 볼 점

이제 가중치가 풀렸어. 공식 Hugging Face모델 카드가 올라왔고, unsloth 같은 곳에서 GGUF 양자화본도 벌써 나왔거든. 다만 MSA(희소 어텐션)는 아직 일부 런타임에서 미지원이라 dense로 폴백돼서, 1M 구간 속도 이점은 환경 따라 갈려. 벤치 숫자만 보고 “이거면 끝”이라고 결론 내리기보단, 풀린 가중치를 직접 돌려본 뒤에 보는 게 안전해.