이 용어는 어디까지 신뢰할 수 있나요?

Video Generation(영상 생성)은 텍스트 프롬프트, 참고 이미지, 짧은 참고 클립을 입력으로 받아 움직이는 장면을 만드는 생성형 AI 작업이야. 결과는 몇 초짜리 소셜 클립일 수도 있고, 스토리보드용 샷일 수도 있고, 앱이나 API가 호출하는 영상 제작 기능일 수도 있어.

처음 볼 때는 모델 이름보다 입력과 출력부터 나눠 보는 게 좋아. Image Generation은 한 장의 픽셀 결과를 만드는 작업에 가깝고, 영상 생성은 프레임 사이의 움직임, 카메라 동선, 장면 연속성, 소리까지 같이 맞춰야 해. Sora나 Veo는 이 범주 안에 있는 구체적인 모델 계열이고, 영상 생성 자체와 같은 말은 아니야. Diffusion Model이나 Transformer와의 차이는 더 단순해. 그 둘은 결과물을 만드는 내부 방식이고, video generation은 사용자가 실제로 요청하는 작업 이름에 가까워.

어떻게 작동하나

대부분의 영상 생성 흐름은 먼저 장면 설명을 받는다. 누가 어디서 무엇을 하는지, 카메라가 어떻게 움직이는지, 조명과 분위기가 어떤지, 대사가 있는지 같은 정보가 들어가. OpenAI의 Sora 2 Prompting Guide도 4초 샷에는 짧은 대화 1-2개 정도가 맞고, 8초 클립이면 조금 더 많은 대화를 넣을 수 있다고 안내해. 긴 연설을 한 번에 넣으면 영상 길이와 입 모양, 호흡이 맞기 어렵다는 뜻이야.

그다음 모델은 여러 프레임을 한 덩어리로 만들거나, 이미 만든 클립 뒤에 새 구간을 이어 붙인다. OpenAI 가이드 기준으로 Sora 2는 한 번에 최대 20초씩 연장할 수 있고, 최대 6번 이어서 총 120초까지 만들 수 있어. 캐릭터를 재사용하려면 2-4초짜리 참고 MP4, 720p-1080p 해상도, 16:9나 9:16 비율 같은 별도 조건도 붙어. 숫자는 숫자고, 결국 제품마다 허용하는 입력과 길이가 다르다는 말이야.

모델 내부 구현도 한 가지로 고정되지 않아. OpenAI의 2024년 Sora 소개는 정적인 노이즈에서 시작해 여러 단계로 영상을 복원하는 Diffusion Model 흐름과, 비디오와 이미지를 작은 패치 단위로 다루는 Transformer 구조를 설명해. Veo 공식 페이지는 Veo 3.1에서 영상과 오디오를 함께 다루는 쪽을 앞세워. 그래서 “영상 생성”이라는 말만 보고 내부 구조나 오디오 지원을 바로 단정하면 위험해.

왜 중요한가

영상 생성은 시안 제작의 단위를 바꿔. 광고 콘셉트, 제품 소개 컷, 교육 영상 예고편, 앱 온보딩 장면처럼 말로 설명하면 오래 걸리는 장면을 몇 초짜리 샷으로 먼저 확인할 수 있어. 팀 회의에서 “이 느낌 맞아?”를 묻는 데는 완성본보다 빠른 초안이 더 쓸모 있을 때가 많다.

다만 이 개념을 모르면 기사를 읽을 때 두 가지를 쉽게 섞어. 하나는 모델 능력이야. 예를 들어 Sora 2는 2025년 9월 30일 발표에서 영상과 오디오를 함께 생성한다고 소개됐고, Veo 3.1도 오디오를 포함한 영상 생성 모델로 공개돼 있어. 다른 하나는 지금 실제로 쓸 수 있는 제품 경로야. OpenAI의 Sora 2 발표문은 현재 상단에 2026년 4월 26일 이후 Sora product가 제공되지 않는다는 안내를 붙이고, 도움말 문서는 Sora 앱과 Sora 2 접근 안내를 따로 업데이트하고 있어. 모델 성능 얘기와 오늘 배포 가능한 제품 얘기는 같은 문장이 아니야.

업무에서는 Prompt Engineering도 달라진다. 이미지 생성 프롬프트는 구도와 스타일이 중심이지만, 영상 생성 프롬프트는 시간 순서가 들어간다. “첫 2초에는 손을 뻗고, 다음 3초에는 카메라가 뒤로 빠지고, 마지막에 대사가 나온다”처럼 샷 안의 사건을 쪼개야 결과가 덜 흔들려. 급할 거 없어. 한 번에 영화 한 편을 만들 생각보다, 4초나 8초 단위로 장면을 검수하는 쪽이 훨씬 현실적이야.

주의해서 볼 점

첫째, 물리와 연속성은 아직 사람이 봐야 해. OpenAI의 Sora 소개도 복잡한 물리, 원인과 결과, 좌우 구분, 시간에 따라 펼쳐지는 사건을 틀릴 수 있다고 적어. 공이 튀는 방향, 손에 들린 물건, 인물이 화면 밖으로 나갔다가 돌아올 때의 옷차림 같은 게 작은 오류로 보이다가 최종본에서는 바로 티가 난다.

둘째, 오디오 지원을 기본값으로 두면 안 돼. Sora 2와 Veo 3.1은 오디오를 앞세우지만, 모든 영상 생성 모델이 대사, 효과음, 배경음을 같은 품질로 내는 건 아니야. 앱에서 10초 세로 영상이 기본인지, 웹에서 더 긴 스토리보드 제어가 가능한지, API에서 몇 초까지 호출할 수 있는지 따로 확인해야 해.

셋째, 공개와 출처 표시가 품질만큼 중요해. OpenAI Help 문서는 Sora 영상에 움직이는 워터마크와 C2PA 메타데이터를 넣는다고 안내해. 실제 인물 닮음, 브랜드 자산, 뉴스처럼 보이는 장면을 만들 때는 “그럴듯한가”보다 “누가 만들었는지 확인되는가”를 먼저 봐야 해.

넷째, 제품 접근성은 계속 바뀐다. Sora처럼 연구 발표, 앱, 웹, API, 구독 플랜이 같은 이름 아래 섞이는 경우가 있어. 기사에서 “영상 생성 모델”이라고 하면 능력 이야기인지, “앱에서 쓸 수 있다”고 하면 배포 이야기인지 먼저 나눠야 해. 그 둘을 섞으면 도입 판단이 바로 흐려져.

이 항목을 참조하는 위키

📰 관련 기사 (8)

Google, Nano Banana 2 Lite와 Gemini Omni Flash를 개발자에게 열었어2026-07-01🔥100점 · 출처 2
Google, 이미지 1,000장을 $0.034에 뽑는 Nano Banana 2 Lite를 열었어2026-06-30🔥95점 · 출처 3
Sora 공개, 생성형 비디오 경쟁의 개막2024-02-15🔥94점 · 출처 2
Sora 2 프롬프트 가이드2026-03-12🔥91점
Sora 2 프롬프트 가이드2026-04-05🔥91점
텍스트·이미지로 긴 영상 세계를 만든다 — DreamX-World 1.0 공개2026-06-17🔥90점
FreqForcing 논문, 긴 영상 색 밀림을 학습 없이 줄였다고 보고했어2026-07-31🔥85점 · 출처 2
구글, Gemini Omni·3.5 Flash 데모 9개 공개하고 구독자 배포 시작2026-05-29🔥80점 · 출처 2

포맷 v3 가이드 wiki 3.2.0

팩트 체크

통과 · 2026-05-07 KST

검증 생성: AI + 편집 검토 · 2026-05-07 상태: 통과

통과 원문 대조 검증 출처 5

후보 JSON의 Sora 중심 출처를 그대로 제품 소개로 쓰지 않고, 영상 생성이라는 상위 개념으로 범위를 다시 맞췄어.

독자 문제 대조: `video-generation`은 Sora 한 모델명이 아니라 텍스트, 이미지, 참고 클립에서 움직이는 결과를 만드는 생성 작업이야.
OpenAI의 2024년 Sora 소개는 텍스트에서 최대 1분짜리 영상을 만들 수 있다고 설명하고, 본문은 이 숫자를 초기 연구 모델 사례로만 썼어.
OpenAI의 Sora 2 발표는 2025-09-30에 영상과 오디오를 함께 생성하는 모델이라고 적어서, 본문도 무음 클립과 오디오 포함 클립을 나눠 설명했어.
Cookbook 가이드는 4초, 8초, 20초 연장, 최대 120초 같은 제작 단위를 제시해서, 본문도 길이를 제품별 제약으로 보게 했어.

통과 교차 검증 검증 출처 6

OpenAI, Google DeepMind, 보조 출처를 대조해서 영상 생성과 특정 서비스 접근성을 분리했어.

비교 기준: 먼저 갈라 볼 건 모델 능력, 제품 접근 경로, 편집 워크플로, 출처 표시 책임이야.
Veo 공식 페이지는 Veo 3.1을 오디오까지 다루는 영상 생성 모델로 소개해서, Sora만으로 개념을 좁히지 않았어.
OpenAI Help 문서는 Sora 앱에서 10초 세로 영상을 기본으로 만들고, Sora 2 발표문은 제품 이용 가능 상태가 바뀔 수 있음을 보여 줘.
Wikipedia는 Sora가 2024-02-15에 공개 미리보기로 알려졌다는 보조 맥락을 주지만, 본문 핵심 주장은 공식 출처 기준으로 잡았어.

통과 수치 검증 검증 출처 5

본문의 숫자는 공개일, 길이, 해상도, 반복 횟수처럼 출처에서 바로 확인되는 값만 남겼어.

OpenAI Sora 소개의 공개일은 2024-02-15이고, 원문은 최대 1분 영상을 만들 수 있다고 설명해.
Sora 2 발표일은 2025-09-30이고, 현재 발표문 상단에는 2026-04-26 이후 Sora product가 제공되지 않는다는 안내가 붙어 있어.
OpenAI Help 문서는 Sora 앱의 기본 결과를 10초 세로 영상, 기본 비율을 9:16으로 적어.
Cookbook 가이드는 개별 연장을 최대 20초, 최대 6번, 총 120초까지로 적고, 캐릭터 참고 클립 요구사항을 2-4초와 720p-1080p로 둬.

통과 비판 검토 검증 출처 6

영상 생성 모델을 완성형 촬영 대체재나 항상 이용 가능한 제품처럼 읽히지 않게 제한했어.

OpenAI Sora 소개는 복잡한 물리, 인과, 좌우, 시간 흐름을 틀릴 수 있다고 적어서, 본문도 물리와 연속성 검수를 따로 남겼어.
Sora 2와 Veo 모두 오디오 생성을 다루지만, 이게 모든 영상 생성 모델의 기본값이라는 식으로 일반화하지 않았어.
Sora 제품 접근성은 공식 문서마다 업데이트 상태가 다를 수 있어서, 본문은 모델 능력과 오늘 쓸 수 있는 제품을 같은 주장으로 묶지 않았어.
실제 인물 닮음, 워터마크, C2PA, 공개 범위는 품질보다 먼저 확인할 운영 책임으로 배치했어.

영상 생성은 결과물이 그럴듯할수록 출처 표시와 권한 검수가 같이 커지는 작업이야.
클립 길이 숫자는 제품별 제한이지, 개념 전체의 고정 한도가 아니야.

출처: OpenAI - Creating video from text , Sora (text-to-video model) , OpenAI Cookbook - Sora 2 Prompting Guide , OpenAI - Sora 2 is here , OpenAI Help Center - Getting started with the Sora app , Google DeepMind - Veo

Video Generation(영상 생성)

전체 AI 기술 맵에서의 위치

한 줄 정의

어떻게 작동하나

왜 중요한가

주의해서 볼 점

관련 용어

이 항목을 참조하는 위키

📰 관련 기사 (8)