이 뉴스의 요약은 어떻게 만들어졌나요?

원문 링크를 바탕으로 핵심 요약을 만들고 fact-check 및 신호 점검을 거쳐 게재됩니다.

팩트체크 기준은 무엇인가요?

근거 링크, 수치 점검, 문맥 정합성, 최신성으로 조합해 상태를 표시해.

2026-06-16 🔥85점 · 출처 3 원문 XiaomiMiMo/MiMo-Code (GitHub)

샤오미 MiMo Code 공개, SWE-bench 82% 자체 벤치로 Claude Code에 도전

샤오미 MiMo AI팀이 6월 10일 터미널 코딩 에이전트 MiMo Code를 MIT 라이선스로 공개했어. OpenCode를 포크해서 세션을 넘기는 영구 메모리를 붙였고, 자체 벤치에서 SWE-bench Verified 82% 대 79%로 Claude Code를 앞섰다고 밝혔어. 다만 이 숫자는 샤오미가 직접 잰 값이고 독립 리더보드엔 아직 안 올라와 있어.

무슨 일이 일어났나

샤오미 MiMo AI팀이 6월 10일 터미널에서 도는 AI 코딩 에이전트 MiMo Code를 공개했어. GitHub에 v0.1.0이 올라왔고, 6월 15일엔 v0.1.1까지 나왔어. MIT 라이선스라 가져다 고쳐 써도 돼. 샤오미는 자체 벤치에서 SWE-bench Verified 82% 대 79%로 Claude Code를 앞섰다고 밝혔어. 단, 이건 샤오미가 직접 잰 값이고 SWE-bench나 Terminal-Bench 2.0 같은 독립 리더보드엔 아직 안 올라와 있어.

실무에서 뭐가 달라지나

MiMo Code는 OpenCode를 포크해서 만들었고, 거기에 세션을 넘겨도 맥락을 안 잃는 영구 메모리를 붙였어. 코딩 에이전트가 긴 작업 중에 앞에서 정한 걸 까먹는 문제를 메모리로 메우려는 거야.

영구 메모리: 프로젝트 지식은 MEMORY.md, 작업별 진행은 tasks/<task-id>/progress.md에 저장해. SQLite 전문 검색으로 세션이 다시 열릴 때 자동으로 끌어와
컨텍스트 재구성: 컨텍스트가 한계에 가까워지면 체크포인트와 메모리, 진행 로그에서 다시 짜 맞춰서 작업을 이어가
Claude Code에서 이전: 기존 인증을 한 단계로 가져올 수 있고, OpenAI 호환 API라면 다른 모델도 붙일 수 있어
무설정 시작: MiMo Auto라는 무료 채널이 기간 한정으로 들어 있어서 따로 설정 없이 바로 써볼 수 있어

메모리가 숫자로 갈리는 지점

샤오미가 미는 근거는 비교 방식에 있어. 같은 MiMo-V2.5-Pro 모델을 MiMo Code와 Claude Code 양쪽 하니스에 똑같이 넣고 재봤더니 SWE-bench Pro에서 62% 대 57%로 약 5%p 차가 났다고 했어. 모델이 같은데도 점수가 갈렸으니, 그 차이는 모델이 아니라 에이전트 구조에서 온다는 주장이야. 200스텝을 넘는 긴 작업에선 MiMo Code 승률이 65%를 넘었고, 그 아래에선 둘이 거의 반반이었어. 우위가 긴 작업 구간에 몰려 있다는 거지.

어떤 의미인가

숫자가 다 샤오미 자체 벤치라 독립 검증이 붙기 전까진 그대로 믿긴 일러. 비교 상대도 Claude Code에 Claude Sonnet 4.6을 붙인 조합이라, 이게 Claude 측 최강 세팅인지는 밝혀져 있지 않아. 그래도 긴 작업에서 에이전트가 자꾸 맥락을 까먹는 게 고민이라면, MIT 라이선스니까 한번 깔아서 내 코드베이스에서 어떤지 보고 판단해도 늦지 않아.

태그

#mimo-code#xiaomi#agentic-coding#claude-code#open-source#developer-tools

포맷 v3 가이드 news 3.4.1

팩트 체크

통과 · 2026-06-16 KST

검증 생성: AI + 편집 검토 · 2026-06-16 상태: 통과

통과 원문 대조

라이선스·날짜·버전·메커니즘을 GitHub 저장소 원본과 대조했어.

GitHub API: license MIT, created 2026-06-10, v0.1.0 published 2026-06-10, v0.1.1 published 2026-06-15 확인
README: 'MiMoCode is built as a fork of OpenCode' — OpenCode 포크 명시 확인
README: 영구 메모리(SQLite FTS5, MEMORY.md, tasks/<id>/progress.md, context reconstruction) 구조 확인

통과 교차 검증 검증 출처 3

공식 저장소 메타데이터와 두 독립 매체의 벤치 보도를 따로 대조했어.

1차 출처 교차검증: GitHub API로 라이선스(MIT)·생성일(2026-06-10)·릴리스(v0.1.0 6/10, v0.1.1 6/15)를 직접 조회하고, README 원문에서 OpenCode 포크와 메모리 구조를 확인했어
벤치 숫자는 README에 표가 없어서 저장소 1차 출처로 확정 불가 — VentureBeat와 Bind AI가 같은 SWE-bench Verified 82/79를 보도하는지 따로 대조했어
두 매체 모두 '벤더 자체 보고, 독립 리더보드(SWE-bench/Terminal-Bench 2.0/Scale SEAL) 미등재'라고 명시한 점을 확인하고 본문에서 self-reported로 한정했어
SWE-bench Pro는 두 가지 비교가 따로 있음을 확인: cross-model(각 도구의 기본 모델) 62/55, same-model(양쪽에 MiMo-V2.5-Pro) 62/57 — 본문 인과 주장에는 same-model 62/57만 썼어

통과 수치 검증

본문·제목·요약의 모든 수치를 출처 기준으로 확인했어.

릴리스 2026-06-10 (v0.1.0), v0.1.1 2026-06-15, 라이선스 MIT — GitHub API 직접 조회
SWE-bench Verified 82% 대 79% (MiMo Code+MiMo-V2.5-Pro 대 Claude Code+Claude Sonnet 4.6) — VentureBeat·Bind AI 일치, 샤오미 자체 보고
SWE-bench Pro same-model 62% 대 57% (양쪽 하니스에 MiMo-V2.5-Pro 동일 투입) — VentureBeat·검색 교차확인, 차이 약 5%p
200스텝 초과 구간 MiMo Code 승률 65% 초과, 그 이하는 약 50/50 — VentureBeat·Bind AI 일치
evidence: https://venturebeat.com/technology/xiaomis-new-open-source-agentic-ai-coding-harness-mimo-code-beats-claude-code-at-ultra-long-200-step-tasks 에서 MiMo Code가 SWE-bench Verified 82%로 Claude Code 79%를 앞섰다는 샤오미 자체 보고 수치를 확인했고, 독립 검증은 안 됐다고 명시돼 있어
Causal evidence: 같은 MiMo-V2.5-Pro 모델을 양쪽 하니스에 똑같이 넣어도 62% 대 57%로 약 5%p 차가 났다는 점에서 샤오미는 차이를 모델이 아니라 에이전트 구조로 돌림 (VentureBeat: 'attributable purely to the agent system, not the model')
Mechanism evidence: 영구 메모리(SQLite FTS5, MEMORY.md, task progress, context reconstruction)가 긴 작업에서 컨텍스트 유지에 쓰인다는 구조 — GitHub README

통과 비판 검토

자체 벤치의 체리피킹·비교 공정성·과장 가능성을 검토했어.

82/79를 포함한 모든 벤치는 샤오미 자체 측정값이고, SWE-bench·Terminal-Bench 2.0·Scale SEAL 같은 독립 리더보드엔 아직 미등재 — 본문에서 '자체 벤치/주장'으로 한정
비교 상대가 Claude Code+Claude Sonnet 4.6인데, 이게 Claude 측 최강 조합인지 명시되지 않음 — 비교 조건이 한정적일 수 있어 본문에 모델 조합을 명시
200스텝 이하에선 약 50/50이라 우위는 긴 작업 구간에 한정 — '항상 더 낫다'로 읽히지 않게 본문에서 구간을 못박음
SWE-bench Pro의 Claude 점수 55와 57은 모순이 아니라 cross-model(62/55)과 same-model(62/57) 두 비교를 가리킴 — 인과 주장이 성립하는 same-model 62/57만 본문에 써서 의미를 정확히 맞춤

82% 자체 벤치를 검증된 사실처럼 쓰지 않도록 제목·본문에서 '자체 벤치/주장'으로 한정 완료
Claude 비교 조합과 200스텝 구간 한정을 본문에 명시 완료

출처: XiaomiMiMo/MiMo-Code — GitHub 저장소 (공식) , VentureBeat — Xiaomi MiMo Code beats Claude Code at 200+ step tasks (2026-06) , Bind AI — Xiaomi MiMo Code 200-step challenger 분석