무슨 일이 일어났나

Moonshot AI가 4월 20일 기존 Kimi K2 계열을 확장한 Kimi K2.6을 공개했어. 핵심 숫자는 이렇게 보면 돼.

  • 벤치마크인 SWE-Bench Pro에서 Kimi K2.6은 58.6점을 기록했어.
  • 같은 비교표에서 GPT 계열 GPT-5.4는 57.7점, Claude Opus 4.6은 53.4점이었어.
  • 모델 스펙으로는 256K 컨텍스트와 300개 서브에이전트, 4,000개 협업 단계를 제시했어.
  • 별도 케이스 스터디에서는 4,000회가 넘는 도구 호출을 거치며 12시간 이상 이어진 자율 실행 예시도 공개했어.
  • 여기서 300개 서브에이전트는 역할을 나눈 작은 에이전트들을 병렬로 돌린다는 뜻이고, 12시간 자율 실행은 사람이 계속 다음 단계를 적어 주지 않아도 반나절 넘게 코드 수정과 측정을 이어간 작업 규모라는 뜻이야.

왜 이게 일어났나

에이전트 워크로드가 늘어나면서 평가 기준이 바뀌고 있어. 예전에는 “한 번의 응답 품질”이 중요했는데, 이제는 “긴 자율 실행에서 흐름이 끊기지 않는가”가 더 중요해졌거든. SWE-Bench Pro는 공개 저장소의 실제 GitHub 이슈를 읽고 코드를 고치고 테스트를 통과시키는지 보는 벤치마크야. 단순한 코드 생성보다 도구 호출과 다단계 추론이 같이 평가돼. Kimi K2.6은 이 방향에 맞춘 모델이야. 300개 서브에이전트가 동시에 협업하는 구조는 단일 모델이 모든 걸 처리하는 방식과 분명히 다르지.

어떤 의미인가

SWE-Bench Pro 점수 차이가 1점 미만이니까 절대 우위라고 보긴 어려워. 측정 노이즈 범위 안일 수도 있거든. 그래도 12시간 자율 실행 케이스가 공개됐다는 건 평가 방향이 바뀌고 있다는 신호야. 다만 단일 시연 케이스이고 자체 측정 벤치마크라는 점은 같이 기억해 두는 게 맞아. 에이전트 자율성을 기준으로 모델을 고르는 사용자라면, Moonshot 공식 발표의 케이스 스터디 본문을 직접 읽어서 실제로 어떤 코드 작업을 얼마나 오래 이어갔는지 확인해 보는 게 좋아.