무슨 일이 있었나
Google이 6월 9일에 Gemini 3.5 Live Translate를 공개했어. 70개가 넘는 언어를 자동으로 감지해서 거의 실시간으로 음성을 음성으로 통역하는 오디오 모델이야. 말하는 사람의 억양이나 말의 속도, 톤까지 살려서 번역 음성을 만든대.
어떻게 작동하나
핵심은 화자가 말을 다 끝낼 때까지 기다리지 않는다는 거야. 문장이 끝나길 기다렸다가 통째로 번역하는 게 아니라, 말하는 동안 음성을 계속 이어서 생성하거든. 그래서 어색하게 끊기는 구간 없이 화자보다 몇 초만 뒤처져서 따라가. 번역할 수 있는 언어 조합은 2,000가지가 넘는데, 이전엔 영어 한 방향만 되던 걸 양방향으로 넓힌 거야. AI가 만든 음성에는 SynthID 워터마크가 들어가서 생성물인지 구분할 수 있어.
어떤 의미인가
쓸 수 있는 길이 단계별로 나뉘어 있어. 개발자는 Gemini Live API랑 AI Studio에서 public preview로 바로 붙여볼 수 있고, 일반 사용자는 안드로이드·iOS Google 번역 앱에서 전 세계로 풀렸어. 회의에서 쓰려면 Google Meet 통합은 아직 기업용 private preview 단계라 바로는 안 돼. 통역을 제품에 넣어볼 거면 API 채널부터, 당장 현장에서 써볼 거면 번역 앱부터 만져보는 게 순서야. 지연이 ‘몇 초’라는 건 Google 쪽 설명이지 따로 측정된 수치는 아니니까, 실제 회의에 넣기 전엔 직접 체감해보는 게 좋아.