한 줄 정의

라이브 API는 Gemini와 사용자가 말하고 보는 흐름을 거의 실시간으로 이어 주는 대화용 API야. 일반 채팅 API처럼 요청 하나를 보내고 텍스트 답을 기다리는 방식이 아니라, 상태를 유지하는 WebSocket 세션에서 오디오, 영상, 텍스트를 계속 주고받는 인터페이스라고 보면 돼.

Vertex AI 문맥에서 Live API라는 이름은 Gemini의 실시간 경로를 가리켜. 대표 모델 ID는 gemini-live-2.5-flash-native-audio이고, 입력은 텍스트·이미지·오디오·비디오를 받고 출력은 텍스트와 오디오로 낸다. 그래서 이 항목은 새 Gemini 2.5 Flash 별칭이라기보다, 실시간 음성 에이전트를 만들 때 쓰는 호출 방식에 가까워.

실제로 무엇을 하나

이 경로는 마이크와 카메라에서 들어오는 흐름을 끊지 않고 모델에 보내고, 모델이 음성이나 텍스트로 바로 답하게 해. 공식 개요 기준 입력은 raw 16-bit PCM 16kHz 오디오, JPEG 1FPS 이미지/비디오, 텍스트이고, 출력은 raw 16-bit PCM 24kHz 오디오와 텍스트야. 프로토콜은 상태 유지 WebSocket 연결(WSS)로 적혀 있어.

대표 장면은 이렇게 갈라 보면 빨라.

  • 고객 지원 음성 봇: 사용자가 말하는 중간에 끼어드는 barge-in을 처리하고, 상담 흐름을 끊지 않은 채 다음 답을 내야 해.
  • 매장 안내 키오스크: 카메라 화면과 음성을 같이 보고 상품 위치, 주문 상태, 현장 안내를 바로 말로 돌려줄 수 있어.
  • 게임이나 로봇 인터페이스: NPC나 기기가 플레이어의 말, 주변 영상, 현재 상황을 같이 받아 즉시 반응해야 해.

핵심 기능도 실시간 입출력에 맞춰져 있어. 고품질 음성, 24개 언어 지원, barge-in, affective dialog, function calling, Google Search 같은 도구 사용, 입력·출력 전사가 한 묶음으로 붙는다.

모델을 고를 때는 기본 gemini-2.5-flash와 헷갈리면 안 돼. 일반 Gemini 2.5 Flash 문서는 최대 입력 1,048,576토큰과 텍스트 출력을 제공하지만 실시간 라이브 세션은 지원하지 않는다고 적어. 반대로 gemini-live-2.5-flash-native-audio는 최대 입력 128K토큰, 최대 출력 64K토큰, 최대 동시 세션 1000개를 Live API용 조건으로 제시해. 긴 문서 분석은 컨텍스트 윈도우가 큰 일반 모델 쪽이고, 실시간 음성 반응은 라이브 경로 쪽이라고 나눠 보면 빨라.

왜 중요한가

Live API라는 말이 중요한 이유는 AI 제품의 병목이 답변 품질만이 아니라 입출력 지연시간, 세션 유지, 오디오 포맷, 동시 접속으로 옮겨가기 때문이야. 텍스트 챗봇은 몇 초 늦어도 참을 수 있지만, 통화형 상담원이나 차량 안 음성 인터페이스는 사용자가 말을 멈추고 다시 말하는 순간을 잘못 잡으면 바로 어색해져.

AI Studio에서 빠르게 시험할 때도 이 차이는 남아. 프롬프트를 한 번 실행해 보는 일과, 마이크 스트림을 열고 끊김 없는 WebSocket 세션을 유지하는 일은 운영 난이도가 달라. Vertex AI 안의 실시간 기능으로 배치되는 것도 이 때문이야. 조직 배포에서는 리전, 과금, 세션 수, 오디오 전사 저장, 도구 호출 권한이 모델 이름보다 먼저 문제로 올라와.

또 Live API는 Chat Completions와 반대편에 있는 좋은 비교축이야. Chat Completions는 메시지 배열을 보내고 응답 객체를 받는 텍스트 중심 경로에 가깝고, Live API는 사람이 말하는 중간의 끊김, 배경 소음, 음성 출력, 영상 프레임까지 다루는 경로야. 같은 “API”라도 제품 설계자가 확인해야 할 체크리스트가 완전히 달라져.

주의해서 볼 점

첫째, Live API를 기본 Flash 모델의 부가 옵션처럼 읽으면 안 돼. 일반 gemini-2.5-flash 상세 페이지에는 실시간 라이브 세션이 지원되지 않는 항목으로 들어가 있고, 전용 모델은 gemini-live-2.5-flash-native-audio처럼 별도 이름으로 잡혀 있어. 기사나 문서에서 Flash와 Live가 같이 보이면 실제 모델 ID를 먼저 대조하는 편이 안전해.

둘째, 실시간이라고 해서 긴 기억을 무한히 들고 가는 건 아니야. 전용 모델의 입력 한도는 128K토큰이고, 오디오 대화 길이는 기본 10분에서 연장 가능하다고 적혀 있어. 상담 로그를 오래 보관하거나 이전 통화 맥락을 불러오려면 앱 데이터베이스, Agent 세션, 검색 도구, 전사 저장 방식을 별도로 잡아야 해.

셋째, 벤더별 “실시간 API” 표현을 그대로 맞바꾸기 어렵다. Google 쪽은 이 경로를 Vertex AIGemini Enterprise Agent Platform 전환 흐름 안에서 설명하고, Alibaba Cloud Model Studio처럼 다른 클라우드 도구는 모델 호출, OpenAI 호환 API, 에이전트 앱을 자기 콘솔 안에서 묶어. 이미 쓰는 클라우드, 권한 체계, 로그 반출 범위가 실시간 모델의 데모 품질보다 더 크게 작동할 수 있어.