이 뉴스의 요약은 어떻게 만들어졌나요?

원문 링크를 바탕으로 핵심 요약을 만들고 fact-check 및 신호 점검을 거쳐 게재됩니다.

팩트체크 기준은 무엇인가요?

근거 링크, 수치 점검, 문맥 정합성, 최신성으로 조합해 상태를 표시해.

OpenAI, GPT-Realtime-2 등 음성 모델 3종 API에 풀었어 — 128K 컨텍스트로 통역까지

OpenAI가 5월 7일 음성 API에 새 모델 3개를 한 번에 풀었어. GPT-Realtime-2는 GPT-5급 추론을 음성 루프 안에서 돌리고 컨텍스트가 32K에서 128K로 늘었어. Translate는 70개 언어 입력을 13개 언어로 실시간 통역하고, Whisper는 말하는 동안 바로 텍스트로 받아.

무슨 일이 일어났나

OpenAI가 5월 7일 음성 API에 새 모델 3개를 한꺼번에 풀었어. 라인업이 이렇게 갈려.

GPT-Realtime-2: GPT-5급 추론을 음성 입출력 루프 안에서 처리하는 첫 음성 모델이야. 컨텍스트가 32K에서 128K로 늘어서, 긴 통화나 에이전트 워크플로우를 외부 상태 봉합 없이 돌릴 수 있어
GPT-Realtime-Translate: 70개 이상 언어 입력을 13개 출력 언어로 실시간 통역해. 스피커 페이스를 따라가는 데 초점이 있어
GPT-Realtime-Whisper: 말하는 동안 바로 텍스트로 받는 streaming STT야

왜 이게 일어났나

기존 음성 파이프라인은 STT → 텍스트 모델 → TTS로 끊겨 있었어. 추론을 텍스트 단계에서만 하다 보니 음성 뉘앙스가 사라지고 응답 지연이 누적됐지. GPT-Realtime-2는 추론을 음성 루프 자체에서 돌려서 그 두 번의 변환을 줄였어.

가격은 GPT-Realtime-2가 음성 입력 100만 토큰당 32달러, 출력 100만 토큰당 64달러, 캐시 입력은 0.40달러야. Translate는 분당 0.034달러, Whisper는 분당 0.017달러로, 분당 과금 두 모델은 통화량이 많은 워크로드에 맞춰져 있어.

어떤 의미인가

업무 자동화 측에서 보면 분기점이 둘이야. 첫째, 콜센터·고객 응대처럼 통화 시간이 길고 컨텍스트가 누적되는 워크로드는 128K 컨텍스트가 즉시 의미가 있어. 외부 메모리 봉합 코드를 빼고 단일 호출로 갈 수 있어. 둘째, 통역 SaaS나 회의록 자동화는 분당 과금이 토큰 과금보다 예측 가능해서 가격 모델링이 단순해져.

OpenAI는 Zillow 사례를 인용하면서 어려운 적대 벤치마크에서 콜 성공률이 69%에서 95%로 26%p 올랐다고 말해. 다만 자체 인용이라 한국어 워크로드에 그대로 옮기기 전에는 자체 PoC가 필요해. 음성 품질은 발표 페이지만 봐서는 판단이 안 되거든.

주의해서 볼 점

음성 모델은 텍스트 대비 토큰 단가가 한 자릿수에서 두 자릿수까지 올라가. GPT-Realtime-2의 입력 100만 토큰당 32달러는 캐시 미스 기준이라 캐시 활용 설계가 비용 차이를 좌우해. 또 라이브 통역은 13개 출력 언어 안에 한국어가 포함되는지, 어조와 격식 처리가 어디까지 되는지 모델 카드 직접 확인이 필요해.

태그

#openai#voice-api#gpt-realtime#translation#whisper

포맷 v3 가이드 news 3.3.0

팩트 체크

통과 · 2026-05-09 KST

검증 생성: AI + 편집 검토 · 2026-05-09 상태: 통과

통과 원문 대조

OpenAI 공식 발표와 보도자료에서 모델 이름·기능·가격 일치 확인

GPT-Realtime-2 / Translate / Whisper 3종 출시 — OpenAI 공식 페이지 명시
컨텍스트 32K → 128K 확장 — OpenAI 발표 직접 인용
Translate: 70개 언어 입력 → 13개 출력 — 공식 발표 명시

통과 교차 검증 검증 출처 3

OpenAI 공식·TechCrunch·9to5Mac 3개 소스로 발표 사실 교차확인

발표일 5월 7일 — OpenAI 공식 + TechCrunch 일치
GPT-Realtime-2가 GPT-5급 추론을 음성 루프 안에서 처리 — 3개 소스 일치
Whisper가 streaming STT라는 점 — TechCrunch와 OpenAI 일치

통과 수치 검증

가격 수치를 OpenAI 공식 기준으로 확인

GPT-Realtime-2: $32/M 음성 입력, $64/M 음성 출력, $0.40/M 캐시 입력 — OpenAI 발표
Translate: $0.034/분 — OpenAI 발표
Whisper: $0.017/분 — OpenAI 발표

통과 비판 검토

Zillow 벤치마크는 OpenAI가 인용한 자체 적용 사례라 독립 검증 필요

Zillow 콜 성공률 69%→95% 26%p 상승 — OpenAI 발표에서만 인용, 독립 검증 없음
음성 가격이 텍스트 모델 대비 비싼 편이라 단순 비교 어려움 — 워크로드별 판단 필요
GPT-Realtime-2 라이브 통역 음성 품질·지연시간은 직접 테스트해야 알 수 있음

Zillow 벤치마크는 OpenAI가 인용한 사례 한 건이라 일반화하려면 자체 데이터로 추가 확인 필요
라이브 통역과 STT의 실제 한국어 처리 품질은 발표만으로는 평가 불가, 자체 PoC 권장

출처: OpenAI — Advancing voice intelligence with new models in the API , TechCrunch — OpenAI launches new voice intelligence features in its API , 9to5Mac — OpenAI has new voice models that reason, translate, and transcribe