이 뉴스의 요약은 어떻게 만들어졌나요?

원문 링크를 바탕으로 핵심 요약을 만들고 fact-check 및 신호 점검을 거쳐 게재됩니다.

팩트체크 기준은 무엇인가요?

근거 링크, 수치 점검, 문맥 정합성, 최신성으로 조합해 상태를 표시해.

MiniMax M3 오픈웨이트 공개, GGUF 양자화로 로컬 구동 시작

MiniMax M3 오픈웨이트가 풀렸어. 1M 토큰 컨텍스트에 멀티모달까지 갖췄고 SWE-Bench Pro 59.0%를 찍었는데, 자체 희소 어텐션(MSA)으로 1M 구간 토큰당 연산을 이전 세대의 1/20로 줄였어. 벌써 GGUF 양자화본이 올라와 로컬 구동 논의가 달아오르는 중이야.

무슨 일이 일어났나

MiniMax가 새 모델 M3를 공개했어. 1M 토큰 컨텍스트에 이미지·영상까지 받는 멀티모달이고, 코딩 벤치인 SWE-Bench Pro에서 59.0%를 찍었다. Terminal-Bench 2.1은 66.0%, MCP Atlas는 74.2%야. MiniMax는 GPT-5.5와 Gemini 3.1 Pro를 앞서고 Claude Opus 4.7에 근접한다고 주장하는데, 이건 자체 발표라 그대로 믿기보단 참고로 보는 게 맞아.

어떻게 이렇게 빨라졌나

핵심은 자체 희소 어텐션인 MSA(MiniMax Sparse Attention)야. 긴 문맥에서 모든 토큰을 다 보지 않고 필요한 부분만 골라 계산하는 방식이라, 1M 구간에서 토큰당 연산이 이전 세대의 1/20로 줄었거든. 그 덕에 prefill은 9배, decode는 15배 넘게 빨라졌다. 긴 컨텍스트가 비싸고 느려서 못 쓰던 문제를 정면으로 깎아낸 셈이야.

가격과 로컬 구동의 현실

토큰 플랜은 세 단계로 나뉘어.

Plus ($20/월): 가볍게 붙여 쓰는 입문용
Max ($50/월): 토큰 소모가 큰 상시 작업용
Ultra ($120/월): 장문·멀티모달을 많이 돌리는 헤비 유저용

문제는 “오픈웨이트”라는 말의 함정이야. 가중치가 풀려도 r/LocalLLaMA에선 벌써 양자화해도 100GB 넘는 VRAM이 든다는 얘기가 돈다. Blackwell(sm_120) 같은 최신 카드 얘기가 같이 나오는 이유지.

주의해서 볼 점

이제 가중치가 풀렸어. 공식 Hugging Face에 모델 카드가 올라왔고, unsloth 같은 곳에서 GGUF 양자화본도 벌써 나왔거든. 다만 MSA(희소 어텐션)는 아직 일부 런타임에서 미지원이라 dense로 폴백돼서, 1M 구간 속도 이점은 환경 따라 갈려. 벤치 숫자만 보고 “이거면 끝”이라고 결론 내리기보단, 풀린 가중치를 직접 돌려본 뒤에 보는 게 안전해.

태그

#minimax#open-weights#sparse-attention#agentic-coding#long-context#llm

포맷 v3 가이드 news 3.4.1

팩트 체크

통과 · 2026-06-14 KST

검증 생성: AI + 편집 검토 · 2026-06-14 상태: 통과

통과 원문 대조

벤치 수치·컨텍스트·공개 일정을 공식 블로그와 대조했어.

SWE-Bench Pro 59.0%, Terminal-Bench 2.1 66.0%, MCP Atlas 74.2% 확인
1M 토큰 컨텍스트와 멀티모달 입력 확인
오픈웨이트 공개와 GGUF 양자화본 등장, 토큰 플랜 가격 확인

통과 교차 검증 검증 출처 3

공식 블로그와 독립 매체, 커뮤니티 배포 논의를 함께 봤어.

1차 출처 교차검증: MiniMax 공식 블로그의 벤치·아키텍처 수치를 외부 정리 매체와 따로 대조했어
출시일(6월 1일)과 오픈웨이트 공개 사실이 출처 간 일치하는지 봤어
벤치 우위 주장(GPT-5.5 등 대비)은 벤더 발표라 보조 신호로만 분리했어

통과 수치 검증

성능·속도·가격 수치를 정량 확인했어.

벤치: SWE-Bench Pro 59.0% / Terminal-Bench 2.1 66.0% / MCP Atlas 74.2%
속도: 1M 구간 토큰당 연산 1/20, prefill 9배+, decode 15배+
가격: 토큰 플랜 Plus $20 / Max $50 / Ultra $120
Mechanism evidence: MSA 희소 어텐션이 1M 구간에서 토큰당 연산을 1/20로 깎아 긴 문맥 비용을 낮추는 구조
Causal evidence: 연산량을 1/20로 줄인 덕에 prefill 9배·decode 15배 가속이 나오는 인과

통과 비판 검토

벤치 출처와 로컬 구동 현실을 검토했어.

벤치는 MiniMax 자체 발표라 독립 재현 전까지 단정 금지
가중치 공개 직후라 독립 벤치 재현은 아직 진행 중
로컬 구동 비용(VRAM)이 '오픈웨이트'라는 단어보다 훨씬 큼

타 모델 대비 우위는 벤더 벤치 — 독립 검증 필요 (본문에서 자체 발표임을 명시 완료)

출처: MiniMax — MiniMax M3 공식 발표 , Fello AI — MiniMax M3 Release & Sparse Attention , r/LocalLLaMA — MiniMax M3 sm_120 배포 논의 , Hugging Face — MiniMaxAI (오픈웨이트 모델 카드)