한 줄 정의

GPT-3 (지피티-3)는 OpenAI가 2020년 5월 발표한 GPT 계열 언어 모델이야. 가장 큰 모델은 175B 파라미터이고, 이전 문맥을 보고 다음 토큰을 예측하는 decoder-only Transformer 계열로 보면 돼.

핵심은 “프롬프트 안 예시”였어. GPT-3 논문은 별도 fine-tuning이나 gradient update 없이, 자연어 지시문과 몇 개의 입출력 예시를 context-window 안에 넣어 번역, 질의응답, 문법 교정, 간단한 산술 같은 작업을 시도했어. 그래서 GPT-3는 큰 모델 성능만이 아니라 LLM을 사용하는 방식, 즉 프롬프트로 작업을 지정하는 감각을 넓힌 모델로 자주 언급돼.

이 모델로 무엇을 할 수 있나

GPT-3의 기본 사용법은 text-in/text-out completion이야. 예를 들어 “틀린 영어 문장 / 고친 영어 문장” 쌍을 몇 개 보여 준 뒤 새 문장을 넣으면, 같은 형식으로 고친 문장을 이어 쓰게 만들 수 있어. 상품 리뷰 초안, 짧은 분류, 문서 질의응답, 번역 예시, 문장 변환처럼 입력과 출력 형식이 텍스트로 보이는 작업에 잘 맞았어.

논문에서 말하는 few-shot은 모델이 그 자리에서 새 가중치를 배우는 뜻이 아니야. 2,048 토큰 context window 안에 보통 10~100개 정도의 예시를 넣고, 마지막 입력에 대한 출력을 이어 쓰게 하는 방식이야. one-shot은 예시 1개, zero-shot은 예시 없이 지시문만 주는 조건이고, 세 조건 모두 추론forward pass만 쓴다는 점이 중요해.

그래서 GPT-3를 업무에 붙인다면 “학습 데이터셋을 새로 만들지 않고도 간단한 텍스트 작업을 시험해 볼 수 있는 모델”로 읽는 게 맞아. 반면 오늘의 ChatGPT식 대화, 긴 문서 처리, 도구 호출, 최신 API 운영까지 GPT-3 하나로 기대하면 바로 어긋나. 그건 GPT-3.5, GPT-4, GPT-5 계열에서 따로 봐야 하는 층위야.

왜 중요한가

GPT-3가 중요한 이유는 scale과 사용법이 같이 바뀌었기 때문이야. OpenAI 논문은 125M부터 175B까지 여덟 크기를 비교했고, 모든 모델을 총 300B 토큰으로 학습했다고 적었어. 가장 큰 175B 모델은 GPT-2의 1.5B와 비교하면 두 자릿수 이상 커졌고, 이 크기 차이가 zero-shot, one-shot, few-shot 결과의 차이로 꽤 선명하게 드러났어.

데이터 쪽도 크기만 보면 안 돼. 논문은 2016~2019년 Common Crawl 41개 shard에서 45TB compressed plaintext를 가져와 filtering 후 570GB로 줄였고, 최종 학습 혼합에는 filtered Common Crawl 410B tokens, WebText2 19B, Books1 12B, Books2 55B, Wikipedia 3B tokens를 썼다고 설명해. 이런 구성을 알아야 GPT-3가 웹 문체와 공개 텍스트에 강하면서도 bias와 contamination 문제를 같이 안고 있다는 점이 보인다.

배포 방식도 기준점이 됐어. GPT-2는 악용 우려 때문에 단계적으로 공개됐다가 나중에 1.5B 가중치가 공개됐지만, GPT-3는 처음부터 OpenAI API private beta 중심으로 제공됐어. OpenAI는 API가 misuse 대응과 production review를 가능하게 한다고 설명했고, 2020년 9월에는 Microsoft가 GPT-3 기술을 라이선스했어. 이후 LLM을 “다운로드하는 모델”보다 “API로 호출하는 제품”으로 접하는 흐름이 훨씬 커졌어.

주의해서 볼 점

첫째, GPT-3의 few-shot을 실제 학습처럼 읽으면 안 돼. 논문도 GPT-3가 새 작업을 진짜 처음부터 배우는지, 아니면 학습 중 본 패턴을 다른 형식으로 알아보는지 불확실하다고 남겼어. 프롬프트 예시는 모델의 일시적 작업 조건이지, 모델 안 지식이나 정책을 영구히 바꾸는 장치가 아니야.

둘째, 175B라는 숫자가 만능을 뜻하지 않아. 논문은 GPT-3가 문서 수준에서 의미를 반복하거나 긴 글에서 coherence를 잃고, 서로 비교해야 하는 WIC·ANLI류 과제와 일부 독해 과제에서 약하다고 적었어. 상식 물리 질문, bias, calibration, 비싼 inference도 한계로 남아 있었어.

셋째, GPT-3는 가중치가 공개된 로컬 모델이 아니야. OpenAI APIMicrosoft 라이선스라는 배포 경로가 핵심이었고, 그래서 재현성·감사 가능성·비용 통제는 공개 모델과 다르게 판단해야 해. 최신 시스템을 새로 고르는 상황이라면 GPT-3 이름보다 현재 제공되는 OpenAI API 모델, 가격, 컨텍스트 한도, 안전 정책을 다시 확인하는 편이 맞아.

같이 보면 좋은 모델

  • GPT-2: GPT-3가 무엇을 키웠는지 보려면 가장 바로 이어지는 전 단계야. 1.5B 공개 가중치와 단계적 공개 논쟁이 GPT-3의 API 배포와 대비돼.
  • GPT: GPT-3의 이름이 서비스명이 아니라 생성형 사전학습 Transformer 계열이라는 점을 잡을 때 기준이 돼.
  • Language Model: GPT-3를 제품보다 먼저 언어 모델 범주에 놓으면, 다음 토큰 예측과 in-context 사용법이 어떻게 이어지는지 이해하기 쉬워.
  • LLM: GPT-3는 대규모 언어 모델이라는 말이 산업적으로 퍼지는 데 큰 기준점이 됐어. 최신 LLM과 비교할 때는 크기보다 배포 방식과 사용 경험까지 같이 봐야 해.
  • Context Window: GPT-3의 2,048 토큰 제한을 보면, 프롬프트 예시를 넣는 few-shot 방식이 왜 입력 길이에 바로 묶였는지 보인다.
  • OpenAI: GPT-3의 API beta, Microsoft 라이선스, 이후 ChatGPT 계열로 이어지는 배포 전략을 같이 읽을 때 필요해.