한 줄 정의

gpt-4o-mini (지피티-4o 미니)는 OpenAIOpenAI API에서 제공하는 작은 GPT-4o 계열 모델이야. 큰 모델을 매번 부르기엔 비싼 대량 분류, 요약, 고객 응답, 검색 키워드 추출 같은 작업에 낮은 지연과 낮은 토큰 단가를 주려는 모델로 보면 돼.

이름에 mini가 붙지만 장난감 모델은 아니야. 공식 모델 카드 기준으로 128,000토큰 컨텍스트와 16,384토큰 최대 출력을 갖고, 텍스트 입력·출력과 이미지 입력을 처리해. 다만 기본 gpt-4o-mini는 오디오와 비디오를 직접 처리하는 모델이 아니어서, 멀티모달이라는 말만 보고 GPT-4o 전체 범위를 그대로 기대하면 빗나가.

이 모델로 무엇을 할 수 있나

잘 맞는 장면은 같은 형태의 요청을 많이 보내는 작업이야. 예를 들어 고객 문의를 의도별로 나누고, 짧은 상품 설명을 태그로 바꾸고, 검색어를 뽑고, 내부 문서에서 요약 초안을 만드는 일처럼 결과를 사람이 빠르게 검토할 수 있는 작업이 먼저 후보가 돼.

긴 입력도 한 번에 넣을 수 있어. 발표문은 전체 코드베이스나 대화 기록처럼 큰 맥락을 넘기는 예를 들고, 모델 카드는 128,000토큰 컨텍스트를 적어. 그래서 “문서를 잘게 쪼개지 않고 한번에 넣어도 되는가”를 실험할 때 의미가 있어. 물론 128,000토큰을 매번 다 쓰면 싸다는 장점이 금방 줄어드니까, 반복 호출에서는 입력 토큰을 먼저 줄이는 게 맞아.

이미지도 받을 수 있어서 스크린샷 분류, 영수증에서 구조화 데이터 뽑기, 간단한 이미지 설명 같은 작업도 후보가 돼. 그래도 복잡한 시각 추론이나 음성 대화까지 한 모델에 맡기는 흐름이라면 GPT-4o나 별도 오디오 모델을 같이 봐야 해.

왜 중요한가

gpt-4o-mini가 중요한 이유는 “작다”가 아니라 “많이 불러도 견딜 수 있는 모델을 OpenAI가 기본 API 라인에 넣었다”는 데 있어. 공식 발표 당시 가격은 입력 1M 토큰당 $0.15, 출력 1M 토큰당 $0.60이었고, 모델 카드에서도 같은 단가와 캐시 입력 $0.075가 보인다. GPT-4o의 입력 $2.50, 출력 $10.00과 비교하면 대량 호출에서 먼저 후보로 올릴 이유가 생겨.

또 하나는 GPT-3.5와의 교체 신호야. OpenAI는 공개일인 2024년 7월 18일에 ChatGPT 무료·Plus·Team 사용자에게 GPT-3.5 대신 GPT-4o mini를 제공한다고 안내했어. 그래서 기사나 문서에서 이 이름이 나오면 “저가형 텍스트 모델” 정도로만 읽기보다, API 기본 작업이 긴 컨텍스트와 이미지 입력까지 포함하는 쪽으로 이동한 신호로 보는 편이 좋아.

주의해서 볼 점

mini라는 이름은 비용과 지연에 관한 힌트이지, 모든 품질 판단의 결론은 아니야. OpenAI 발표문에는 82.0% MMLU, 87.2% HumanEval 같은 점수가 나오지만, 그 숫자는 자사 발표 벤치마크야. 운영에서는 작은 테스트 세트를 만들어 GPT-4o, GPT-4o mini, 필요한 경우 다른 공급자의 작은 모델을 같은 프롬프트로 비교하는 게 낫다.

모달리티도 현재 모델 카드 기준으로 봐야 해. 발표문에는 앞으로 오디오·비디오 지원을 넓히겠다는 말이 있지만, 기본 API 모델 카드gpt-4o-mini는 텍스트와 이미지 입력, 텍스트 출력으로 적혀 있어. 이름이 비슷한 audio preview나 search preview 모델을 같은 모델처럼 문서에 섞으면 비용표와 기능 범위가 틀어져.

스냅샷도 챙겨야 해. 안정적인 운영이면 gpt-4o-mini 별칭만 쓰기보다 gpt-4o-mini-2024-07-18처럼 스냅샷을 고정할지 검토해. 분류 기준이나 JSON 구조가 조금만 바뀌어도 후속 배치 작업에서는 꽤 귀찮아지거든.

같이 보면 좋은 모델

  • GPT-4o: 같은 128,000토큰 컨텍스트와 이미지 입력을 갖지만 더 비싼 범용 모델이야. 품질이 비용보다 중요하거나 복잡한 시각 추론이 섞이면 먼저 비교해.
  • GPT-3.5: GPT-4o mini가 교체한 저비용 텍스트 모델 계열이야. 예전 비용표나 레거시 프롬프트를 읽을 때 기준점으로 남아 있어.
  • OpenAI API: 이 모델을 실제로 호출하는 경로야. 가격, 배치 처리, 구조화 출력, 함수 호출 같은 운영 조건은 모델 이름보다 API 설정에서 갈릴 때가 많아.
  • ChatGPT: 사용자 제품 안에서는 모델 이름이 보이지 않거나 바뀔 수 있어. API 모델 ID와 ChatGPT 제품 경험을 같은 층위로 두지 않는 게 좋아.
  • context-window: 128,000토큰을 어떻게 쓸지 판단하는 기준이야. 긴 입력을 넣을 수 있다는 말과 매번 넣어도 된다는 말은 다르다.