한 줄 정의

Kimi API는 Moonshot AI의 Kimi 모델을 앱, 서버, 자동화 흐름에서 코드로 호출하는 개발 인터페이스야. Kimi 웹앱 이름이나 Kimi K2.6 같은 개별 모델명이 아니라, https://api.moonshot.ai/v1로 요청을 보내고 응답·과금·한도를 관리하는 운영 경계라고 보면 돼.

실제로 무엇을 하나

공식 문서 기준으로 Kimi API는 OpenAI 호환 HTTP API야. 그래서 기존 OpenAI SDK를 그대로 쓰고 기준 주소(base_url)만 https://api.moonshot.ai/v1로 바꿔 연동할 수 있어.

  • 기본 호출은 /v1/chat/completions에서 하고, 지원 모델 확인은 /v1/models, 토큰 예상치는 /v1/tokenizers/estimate-token-count, 잔액 확인은 /v1/users/me/balance로 나뉘어 있어.
  • 현재 대표 모델은 kimi-k2.6이야. 공식 모델 목록은 이 모델을 256K 컨텍스트멀티모달 주력 라인으로 두고, 텍스트·이미지·비디오 입력, 생각 모드(thinking) on/off, dialogue / agent 작업을 함께 지원한다고 적어.
  • Kimi 문서는 thinking을 SDK의 extra_body로 넘기고, 응답 이어쓰기용 필드(partial)는 마지막 assistant 메시지 안에 넣는 전용 방식을 따로 적어 놨어.
  • 여기에 Tool Use 기반 함수 호출, JSON Mode, Partial Mode, 자동 컨텍스트 캐싱, 인터넷 검색 같은 기능이 같이 들어 있어서, 단순 텍스트 생성 API보다 에이전트형 워크플로를 겨냥한 인터페이스에 가까워.

왜 중요한가

이 항목이 중요한 이유는 Kimi API를 쓴다는 말이 모델 성능 얘기가 아니라 제품 통합 얘기일 때가 많기 때문이야.

  • 누군가 Kimi를 연동했다고 하면 그게 Kimi 웹앱을 쓴다는 뜻인지, Kimi K2.6을 API로 호출해 서비스 안에서 돌린다는 뜻인지 먼저 갈라야 해. 이 구분이 안 되면 벤치마크 기사와 실제 개발 문서를 같은 층위로 읽게 돼.
  • 2026년 5월 3일 기준 Kimi API 플랫폼 홈은 kimi-k2.6 가격을 캐시 적중 100만 토큰(MTok)당 $0.16, 입력 100만 토큰당 $0.95, 출력 100만 토큰당 $4.00으로 적고 있어. Recharge and Rate Limiting 문서는 사용 시작 최소 충전액을 $1, 누적 충전 $5 도달 시 바우처를 $5로 안내해. 데모 호출은 금방 해도, 실제 운영은 가격과 충전 구조를 같이 봐야 한다는 뜻이야.
  • 공식 Model Listkimi-k2 계열이 2026년 5월 25일에 종료된다고 적고, 계속 지원받으려면 kimi-k2.6을 쓰라고 안내해. 예전 Kimi K2 튜토리얼이 보여도 지금 호출할 API 모델 ID를 다시 확인해야 하는 이유가 여기 있어.

주의해서 볼 점

  • OpenAI 호환이라는 말만 보고 완전히 같은 API라고 읽으면 부족해. 요청과 응답 골격은 비슷하지만 thinking과 응답 이어쓰기용 필드(partial)처럼 Kimi 전용 확장이 있고, 이런 차이는 기존 클라이언트를 이식할 때 바로 걸리는 지점이야.
  • Kimi API는 하나의 고정 모델이 아니야. 지금 문서상 대표 모델은 kimi-k2.6이지만, 모델 목록에는 kimi-k2.5, Moonshot V1 계열도 같이 있고 각 모델의 입력 범위, 가격, 기본 파라미터가 다르다. 그래서 Kimi API를 연동했다는 말만으로 성능이나 비용을 단정하면 금방 어긋나.
  • rate limit도 계정마다 똑같이 열리지 않아. 공식 문서는 누적 충전액에 따라 동시성, 분당 요청 수(RPM), 분당 토큰 수(TPM), 일간 토큰 수(TPD) 한도가 달라진다고 적고 있어. 실무에서는 모델 품질보다 먼저 “지금 계정으로 어느 정도 트래픽을 버틸 수 있나”를 같이 봐야 덜 낭패야.