무슨 일이 일어났나
구글 공식 발표에 따르면 Gemini Omni Flash는 Gemini의 추론 능력에 영상 생성·편집 기능을 붙인 모델이고, 텍스트·이미지·오디오·영상 4개 입력 형식을 함께 받아.
예를 들어 “이 장면 조명을 낮 조명으로 바꿔줘”라고 말하면 캐릭터 일관성, 물리 법칙, 장면 연속성을 유지한 채 영상을 고쳐. 여러 번 대화를 주고받으며 편집을 이어갈 수 있고, 생성된 영상 전체에는 SynthID 디지털 워터마크가 붙어. Gemini 앱, Chrome, 구글 검색에서 AI 생성 여부도 확인할 수 있어.
현재는 음성 참조를 포함한 텍스트·이미지·영상·오디오 입력을 지원해. 다른 오디오 타입은 이후 로드맵에 남아 있어.
왜 이게 일어났나
다른 AI 영상 생성 도구가 “프롬프트 → 영상 한 방”에 가깝다면, Gemini Omni는 기존 영상을 대화로 계속 고치는 반복 편집 쪽을 노려. 결과물을 보고 다시 지시하고 수정하는 사이클을 AI가 맡는 구조야.
구글은 물리 법칙, 역사, 과학, 문화적 맥락 같은 지식 기반 추론을 영상 편집에 넣었다는 점을 차별점으로 내세워. 단순 패턴 매칭보다 “세상이 어떻게 작동하는지 알고” 편집한다는 설명이야.
어떤 의미인가
Gemini AI Plus, Pro, Ultra 3개 구독 플랜 사용자는 Gemini 앱과 Google Flow에서 바로 써볼 수 있어. YouTube Shorts 사용자는 무료로 접근 가능하고, 개발자·기업용 API는 몇 주 안에 열릴 예정이야.
핵심은 편집 툴을 몰라도 “이 부분 이렇게 바꿔줘”라는 말 한 마디로 수정할 수 있다는 점이야. 기존 영상 편집 소프트웨어의 진입 장벽을 대화 인터페이스로 낮추는 방향으로 봐야 해.
주의할 점
현재 공개된 버전은 영상 출력에 집중돼 있고, 이미지나 오디오 생성 출력 기능은 로드맵에만 있어. 성능 벤치마크와 YouTube 외 사용자 대상 요금 정보는 아직 확인해야 해.