한 줄 정의

gpt-image-2 (지피티 이미지 2)는 OpenAI가 만든 이미지 생성·편집용 GPT Image 모델이야. 텍스트 프롬프트와 참고 이미지를 받아 새 이미지를 만들거나 기존 이미지를 고치는 데 쓰는 모델 ID라고 보면 돼.

2026년 4월 21일 OpenAI는 ChatGPT의 새 이미지 경험을 공개했고, 개발자 문서에서는 gpt-image-2를 최신 GPT Image 모델로 안내했어. 그래서 이 이름을 볼 때는 “ChatGPT에서 이미지가 나온다”는 제품 경험과 “API에서 gpt-image-2를 호출한다”는 개발 경로를 나눠 읽는 편이 안전해.

이 모델로 무엇을 할 수 있나

가장 단순한 사용법은 Image API에서 v1/images/generations로 새 이미지를 만드는 거야. 예를 들어 제품 썸네일, 광고 시안, 블로그 대표 이미지, 교육용 삽화처럼 프롬프트 한 번으로 초안을 만들 때 맞아. 같은 Image API의 v1/images/edits에서는 원본 이미지 여러 장을 참고로 넣고, 새 프롬프트로 전체 또는 일부를 다시 그리게 할 수 있어.

대화형 흐름을 만들 때는 Responses API를 같이 봐야 해. OpenAI 이미지 가이드는 Responses API에서 이미지 생성 호출 결과나 previous_response_id를 이어 넣으면 여러 턴으로 프롬프트를 다듬고 이미지를 계속 수정할 수 있다고 설명해. 이때 action: "auto"는 모델이 생성과 편집을 고르게 두는 값이고, generateedit로 방향을 강제로 정할 수도 있어.

출력 제어도 이 모델을 보는 중요한 기준이야. 문서 기준으로 size, quality, background에는 auto를 둘 수 있고, 대표 크기는 1024x1024, 1536x1024, 1024x1536, 3840x2160 같은 식이야. 다만 gpt-image-2는 현재 투명 배경을 지원하지 않아. 배경 없는 로고 PNG를 바로 뽑는 용도로 고르면 중간에 막힐 수 있어.

왜 중요한가

gpt-image-2가 중요한 이유는 DALL-E식 “텍스트로 그림 생성”에서 API 운영형 이미지 생성으로 넘어가는 흐름을 더 분명하게 보여주기 때문이야. OpenAI의 deprecations 문서는 DALL-E 2와 DALL-E 3 API 스냅샷을 2026년 5월 12일 종료 대상으로 적었고, 추천 대체 모델로 gpt-image-1 또는 gpt-image-1-mini를 제시했어. gpt-image-2는 그 다음 단계의 GPT Image 모델로 봐야지, DALL-E 종료 공지의 유일한 대체재처럼 읽으면 과해.

운영 숫자도 바로 체감돼. 가격표 기준 표준 gpt-image-2는 100만 토큰당 이미지 입력 $8.00, 캐시 이미지 입력 $2.00, 이미지 출력 $30.00이야. 텍스트 입력은 $5.00, 캐시 텍스트 입력은 $1.25로 따로 적혀 있어. Batch는 이미지 입력 $4.00, 캐시 이미지 입력 $1.00, 이미지 출력 $15.00처럼 절반 가격으로 표시돼서, 대량 생성과 즉시 생성의 비용 차이를 먼저 계산해야 해.

한도도 작은 차이가 아니야. 모델 카드 기준 Free는 지원되지 않고, Tier 1은 100,000 TPM과 5 IPM, Tier 5는 8,000,000 TPM과 250 IPM으로 표시돼. 썸네일 몇 장을 만드는 내부 도구라면 Tier 1에서도 실험할 수 있지만, 사용자 요청마다 이미지를 만드는 제품이면 IPM과 출력 토큰 비용이 먼저 병목이 될 수 있어.

주의해서 볼 점

첫째, gpt-image-2GPT-5.5를 같은 모델처럼 섞으면 안 돼. 이미지 가이드의 Responses API 예시는 GPT-5.5 같은 본문 모델이 image_generation 도구를 호출하는 흐름을 보여줘. 반면 Image API에서 직접 지정하는 모델 ID는 gpt-image-2야. 대화형 앱을 만들 때는 본문 모델, 이미지 도구, 이미지 모델 비용을 따로 기록하는 편이 좋아.

둘째, 편집은 강력하지만 픽셀 단위 보장으로 읽으면 곤란해. 마스크 편집은 모델에 추가 지시를 주는 방식이고, 문서는 마스크 모양을 완전히 정밀하게 따르지 않을 수 있다고 적어. 제품 사진의 작은 로고 위치, 의류 패턴, 법적 문구처럼 정확해야 하는 부분은 생성 후 검수가 필요해.

셋째, 큰 출력은 비용과 안정성을 같이 본다. gpt-image-2는 최대 변 3840px, 총 8,294,400픽셀 이하 같은 크기 조건을 제시하지만, 문서는 2560x1440을 넘는 2K급 출력은 experimental로 본다고 적어. 4K 랜딩 이미지처럼 큰 산출물을 바로 운영에 쓰려면 생성 시간, 재시도 비용, 후처리 단계를 같이 잡아야 해.

같이 보면 좋은 모델

  • DALL-E: 예전 OpenAI 이미지 생성 이름을 읽는 기준선이야. gpt-image-2는 DALL-E 브랜드보다 GPT Image API 모델 흐름에 더 가까워.
  • GPT-5.5: Responses API에서 이미지 도구를 호출하는 본문 모델 쪽을 볼 때 필요해. gpt-image-2와 같은 모델 ID가 아니라 호출 흐름의 다른 층위야.
  • ChatGPT: 사용자가 이미지 생성을 만나는 제품 화면을 볼 때 연결돼. API 모델 선택과 ChatGPT 화면 경험을 섞지 않으려면 같이 확인하는 편이 좋아.
  • Responses API: 여러 턴으로 이미지를 다듬고 대화형 편집 경험을 만들 때 보는 API 경로야. 단발 생성용 Image API와 역할이 달라.