한 줄 정의
Kimi K2.6은 Moonshot AI가 2026년 4월 공개한 Kimi 계열의 멀티모달 오픈 웨이트 모델이야. 이름은 Kimi K2와 비슷하지만, API 상품명은 kimi-k2.6으로 분리돼 있고 텍스트·이미지·비디오 입력, thinking / non-thinking 모드, dialogue / agent 작업을 한 모델 안에 묶은 버전이야.
처음 보는 사람 기준으로는 “Kimi K2의 새 이름”이라기보다 “기존 K2 뒤에 나온 새 버전”이라고 잡는 편이 덜 헷갈려. 공식 모델 카드 기준 아키텍처는 1T total / 32B active MoE이고 컨텍스트는 256K야.
이 모델로 무엇을 할 수 있나
Kimi K2.6이 겨냥하는 일은 agentic-coding 쪽이야. 공식 기술 블로그와 모델 카드는 Rust·Go·Python, 프런트엔드, DevOps 같은 긴 작업 흐름에서 안정성을 강조하고, 공식 벤치마크 표에는 SWE-Bench Pro 58.6, Terminal-Bench 2.0 66.7, BrowseComp 83.2, HLE-Full with tools 54.0이 적혀 있어. 숫자만 보면 “채팅 모델”보다는 여러 파일을 묶은 개발 작업과 도구 호출에 더 초점을 맞춘 모델에 가까워.
멀티모달 입력 범위도 넓어. Kimi API Quickstart는 이미지와 비디오를 모두 base64 입력으로 받는 예제를 제공하고, 지원 포맷도 이미지 png·jpeg·webp·gif, 비디오 mp4·mpeg·mov·avi·x-flv·mpg·webm·wmv·3gpp까지 따로 적고 있어. 그래서 스크린샷, 문서 이미지, 데모 영상, UI 녹화본을 같이 읽히는 워크플로를 만들기 쉬운 편이야.
공식 기술 블로그가 보여주는 예시도 꽤 구체적이야. Qwen 3.5 0.8B를 맥에서 로컬 배포하는 작업에서는 4,000+ tool calls와 12시간 넘는 실행 끝에 처리 속도를 약 15 tokens/sec에서 193 tokens/sec 안팎까지 끌어올렸다고 적어 놨어. 그래서 K2.6을 볼 때는 단답 응답보다 긴 실행 루프 유지력 쪽을 먼저 보는 편이 맞아.
배포 경로는 두 갈래로 보면 돼.
- 서비스형: Kimi 웹, 앱, Kimi Code, API에서 바로 쓴다. API는
https://api.moonshot.ai/v1기준 OpenAI 호환 형식이라 기존 클라이언트 호출 흐름을 거의 그대로 재사용할 수 있어. - 직접 실행형: 공식 카드는 vLLM, SGLang, KTransformers를 권장하고, 커뮤니티는 GGUF 변환본도 올린다.
왜 중요한가
Kimi K2.6이 중요한 이유는 “오픈 웨이트인데 에이전트 작업까지 밀어붙이는 모델”이라는 점을 숫자로 보여주기 때문이야. 공식 기술 블로그는 에이전트 스웜이 최대 300 sub-agents, 4,000 coordinated steps까지 확장된다고 설명하고, 도움말 문서는 단일 에이전트 대비 약 4.5배 빠르다고 적어. 이건 단순한 코드 완성 모델보다 훨씬 긴 실행 흐름을 전제로 한 설계야.
또 하나는 기존 K2 계열과의 분리야. Kimi API 모델 목록은 kimi-k2 시리즈가 2026년 5월 25일에 공식 종료된다고 적고, 계속 지원받으려면 kimi-k2.6을 쓰라고 안내해. 그래서 지금 문서나 튜토리얼에서 “Kimi K2”라고만 쓰여 있으면 그게 예전 0905 preview를 말하는지, 새 멀티모달 K2.6을 말하는지 먼저 가려야 해.
가격도 이전 K2와 달라. 2026년 5월 3일 기준 Kimi API 플랫폼 홈은 kimi-k2.6을 cache hit $0.16, 입력 $0.95, 출력 $4.00 per MTok로 적고 있고, 같은 페이지의 kimi-k2는 입력 $0.60, 출력 $2.50이야. 즉 K2.6은 단순 후속 이름이 아니라 기능과 가격이 같이 올라간 상위 라인으로 보는 편이 맞아.
같이 보면 좋은 모델
- Kimi K2: 이름이 비슷해서 가장 먼저 헷갈리는 항목이야. 기존 preview 라인과 새
kimi-k2.6을 갈라서 보는 기준점으로 좋아. - GPT-5.4: 공식 벤치마크 표에서 K2.6이 직접 비교한 상대라서, 코딩·에이전트 지표를 어디서 따라붙는지 볼 때 같이 보면 좋아.
- Claude Opus 4.6: K2.6이 붙는 또 다른 비교축이야. 장문 코드 작업과 에이전트 흐름을 어디까지 오픈 웨이트가 따라왔는지 볼 때 기준이 돼.
- GGUF: K2.6을 로컬에서 돌려보겠다는 말이 나오면 거의 항상 같이 붙는 용어야. 다만 이 페이지의 메모리 수치를 먼저 보고 접근하는 편이 안전해.
주의해서 볼 점
첫째, 오픈 웨이트와 로컬 실행 가능성은 같은 말이 아니야. 커뮤니티 GGUF 페이지를 보면 Q4_X가 543.617GiB, IQ3_K가 459.945GiB라서 “내 PC에서도 돌아간다”는 감각으로 접근하면 바로 어긋나. 더구나 해당 페이지는 일부 양자화가 일반 llama.cpp 메인라인이 아니라 별도 포크를 요구한다고 적어.
둘째, 벤치마크 해석은 층위를 나눠야 해. 공식 표를 보면 K2.6은 코딩과 에이전트 지표에서는 GPT-5.4, Claude Opus 4.6와 비슷하게 붙지만, 순수 추론과 비전 표에서는 항상 1등이 아니야. 이 문장은 공식 모델 카드의 표를 읽은 해석이야. 그래서 “코딩 중심 멀티모달 에이전트 모델”로 볼 때 강점이 분명하지, 모든 범용 벤치마크를 다 이긴다고 읽으면 과장이야.
셋째, 실무에서는 경로를 먼저 정해야 해.