무슨 일이 일어났나
OpenAI가 5월 7일 음성 API에 새 모델 3개를 한꺼번에 풀었어. 라인업이 이렇게 갈려.
- GPT-Realtime-2: GPT-5급 추론을 음성 입출력 루프 안에서 처리하는 첫 음성 모델이야. 컨텍스트가 32K에서 128K로 늘어서, 긴 통화나 에이전트 워크플로우를 외부 상태 봉합 없이 돌릴 수 있어
- GPT-Realtime-Translate: 70개 이상 언어 입력을 13개 출력 언어로 실시간 통역해. 스피커 페이스를 따라가는 데 초점이 있어
- GPT-Realtime-Whisper: 말하는 동안 바로 텍스트로 받는 streaming STT야
왜 이게 일어났나
기존 음성 파이프라인은 STT → 텍스트 모델 → TTS로 끊겨 있었어. 추론을 텍스트 단계에서만 하다 보니 음성 뉘앙스가 사라지고 응답 지연이 누적됐지. GPT-Realtime-2는 추론을 음성 루프 자체에서 돌려서 그 두 번의 변환을 줄였어.
가격은 GPT-Realtime-2가 음성 입력 100만 토큰당 32달러, 출력 100만 토큰당 64달러, 캐시 입력은 0.40달러야. Translate는 분당 0.034달러, Whisper는 분당 0.017달러로, 분당 과금 두 모델은 통화량이 많은 워크로드에 맞춰져 있어.
어떤 의미인가
업무 자동화 측에서 보면 분기점이 둘이야. 첫째, 콜센터·고객 응대처럼 통화 시간이 길고 컨텍스트가 누적되는 워크로드는 128K 컨텍스트가 즉시 의미가 있어. 외부 메모리 봉합 코드를 빼고 단일 호출로 갈 수 있어. 둘째, 통역 SaaS나 회의록 자동화는 분당 과금이 토큰 과금보다 예측 가능해서 가격 모델링이 단순해져.
OpenAI는 Zillow 사례를 인용하면서 어려운 적대 벤치마크에서 콜 성공률이 69%에서 95%로 26%p 올랐다고 말해. 다만 자체 인용이라 한국어 워크로드에 그대로 옮기기 전에는 자체 PoC가 필요해. 음성 품질은 발표 페이지만 봐서는 판단이 안 되거든.
주의해서 볼 점
음성 모델은 텍스트 대비 토큰 단가가 한 자릿수에서 두 자릿수까지 올라가. GPT-Realtime-2의 입력 100만 토큰당 32달러는 캐시 미스 기준이라 캐시 활용 설계가 비용 차이를 좌우해. 또 라이브 통역은 13개 출력 언어 안에 한국어가 포함되는지, 어조와 격식 처리가 어디까지 되는지 모델 카드 직접 확인이 필요해.