한 줄 정의

Video Generation(영상 생성)은 텍스트 프롬프트, 참고 이미지, 짧은 참고 클립을 입력으로 받아 움직이는 장면을 만드는 생성형 AI 작업이야. 결과는 몇 초짜리 소셜 클립일 수도 있고, 스토리보드용 샷일 수도 있고, 앱이나 API가 호출하는 영상 제작 기능일 수도 있어.

처음 볼 때는 모델 이름보다 입력과 출력부터 나눠 보는 게 좋아. Image Generation은 한 장의 픽셀 결과를 만드는 작업에 가깝고, 영상 생성은 프레임 사이의 움직임, 카메라 동선, 장면 연속성, 소리까지 같이 맞춰야 해. SoraVeo는 이 범주 안에 있는 구체적인 모델 계열이고, 영상 생성 자체와 같은 말은 아니야. Diffusion Model이나 Transformer와의 차이는 더 단순해. 그 둘은 결과물을 만드는 내부 방식이고, video generation은 사용자가 실제로 요청하는 작업 이름에 가까워.

어떻게 작동하나

대부분의 영상 생성 흐름은 먼저 장면 설명을 받는다. 누가 어디서 무엇을 하는지, 카메라가 어떻게 움직이는지, 조명과 분위기가 어떤지, 대사가 있는지 같은 정보가 들어가. OpenAISora 2 Prompting Guide도 4초 샷에는 짧은 대화 1-2개 정도가 맞고, 8초 클립이면 조금 더 많은 대화를 넣을 수 있다고 안내해. 긴 연설을 한 번에 넣으면 영상 길이와 입 모양, 호흡이 맞기 어렵다는 뜻이야.

그다음 모델은 여러 프레임을 한 덩어리로 만들거나, 이미 만든 클립 뒤에 새 구간을 이어 붙인다. OpenAI 가이드 기준으로 Sora 2는 한 번에 최대 20초씩 연장할 수 있고, 최대 6번 이어서 총 120초까지 만들 수 있어. 캐릭터를 재사용하려면 2-4초짜리 참고 MP4, 720p-1080p 해상도, 16:9나 9:16 비율 같은 별도 조건도 붙어. 숫자는 숫자고, 결국 제품마다 허용하는 입력과 길이가 다르다는 말이야.

모델 내부 구현도 한 가지로 고정되지 않아. OpenAI의 2024년 Sora 소개는 정적인 노이즈에서 시작해 여러 단계로 영상을 복원하는 Diffusion Model 흐름과, 비디오와 이미지를 작은 패치 단위로 다루는 Transformer 구조를 설명해. Veo 공식 페이지는 Veo 3.1에서 영상과 오디오를 함께 다루는 쪽을 앞세워. 그래서 “영상 생성”이라는 말만 보고 내부 구조나 오디오 지원을 바로 단정하면 위험해.

왜 중요한가

영상 생성은 시안 제작의 단위를 바꿔. 광고 콘셉트, 제품 소개 컷, 교육 영상 예고편, 앱 온보딩 장면처럼 말로 설명하면 오래 걸리는 장면을 몇 초짜리 샷으로 먼저 확인할 수 있어. 팀 회의에서 “이 느낌 맞아?”를 묻는 데는 완성본보다 빠른 초안이 더 쓸모 있을 때가 많다.

다만 이 개념을 모르면 기사를 읽을 때 두 가지를 쉽게 섞어. 하나는 모델 능력이야. 예를 들어 Sora 2는 2025년 9월 30일 발표에서 영상과 오디오를 함께 생성한다고 소개됐고, Veo 3.1도 오디오를 포함한 영상 생성 모델로 공개돼 있어. 다른 하나는 지금 실제로 쓸 수 있는 제품 경로야. OpenAISora 2 발표문은 현재 상단에 2026년 4월 26일 이후 Sora product가 제공되지 않는다는 안내를 붙이고, 도움말 문서는 Sora 앱과 Sora 2 접근 안내를 따로 업데이트하고 있어. 모델 성능 얘기와 오늘 배포 가능한 제품 얘기는 같은 문장이 아니야.

업무에서는 Prompt Engineering도 달라진다. 이미지 생성 프롬프트는 구도와 스타일이 중심이지만, 영상 생성 프롬프트는 시간 순서가 들어간다. “첫 2초에는 손을 뻗고, 다음 3초에는 카메라가 뒤로 빠지고, 마지막에 대사가 나온다”처럼 샷 안의 사건을 쪼개야 결과가 덜 흔들려. 급할 거 없어. 한 번에 영화 한 편을 만들 생각보다, 4초나 8초 단위로 장면을 검수하는 쪽이 훨씬 현실적이야.

주의해서 볼 점

첫째, 물리와 연속성은 아직 사람이 봐야 해. OpenAISora 소개도 복잡한 물리, 원인과 결과, 좌우 구분, 시간에 따라 펼쳐지는 사건을 틀릴 수 있다고 적어. 공이 튀는 방향, 손에 들린 물건, 인물이 화면 밖으로 나갔다가 돌아올 때의 옷차림 같은 게 작은 오류로 보이다가 최종본에서는 바로 티가 난다.

둘째, 오디오 지원을 기본값으로 두면 안 돼. Sora 2와 Veo 3.1은 오디오를 앞세우지만, 모든 영상 생성 모델이 대사, 효과음, 배경음을 같은 품질로 내는 건 아니야. 앱에서 10초 세로 영상이 기본인지, 웹에서 더 긴 스토리보드 제어가 가능한지, API에서 몇 초까지 호출할 수 있는지 따로 확인해야 해.

셋째, 공개와 출처 표시가 품질만큼 중요해. OpenAI Help 문서는 Sora 영상에 움직이는 워터마크와 C2PA 메타데이터를 넣는다고 안내해. 실제 인물 닮음, 브랜드 자산, 뉴스처럼 보이는 장면을 만들 때는 “그럴듯한가”보다 “누가 만들었는지 확인되는가”를 먼저 봐야 해.

넷째, 제품 접근성은 계속 바뀐다. Sora처럼 연구 발표, 앱, 웹, API, 구독 플랜이 같은 이름 아래 섞이는 경우가 있어. 기사에서 “영상 생성 모델”이라고 하면 능력 이야기인지, “앱에서 쓸 수 있다”고 하면 배포 이야기인지 먼저 나눠야 해. 그 둘을 섞으면 도입 판단이 바로 흐려져.