이 용어는 어디까지 신뢰할 수 있나요?

핵심은 “프롬프트 안 예시”였어. GPT-3 논문은 별도 fine-tuning이나 gradient update 없이, 자연어 지시문과 몇 개의 입출력 예시를 context-window 안에 넣어 번역, 질의응답, 문법 교정, 간단한 산술 같은 작업을 시도했어. 그래서 GPT-3는 큰 모델 성능만이 아니라 LLM을 사용하는 방식, 즉 프롬프트로 작업을 지정하는 감각을 넓힌 모델로 자주 언급돼.

이 모델로 무엇을 할 수 있나

GPT-3의 기본 사용법은 text-in/text-out completion이야. 예를 들어 “틀린 영어 문장 / 고친 영어 문장” 쌍을 몇 개 보여 준 뒤 새 문장을 넣으면, 같은 형식으로 고친 문장을 이어 쓰게 만들 수 있어. 상품 리뷰 초안, 짧은 분류, 문서 질의응답, 번역 예시, 문장 변환처럼 입력과 출력 형식이 텍스트로 보이는 작업에 잘 맞았어.

논문에서 말하는 few-shot은 모델이 그 자리에서 새 가중치를 배우는 뜻이 아니야. 2,048 토큰 context window 안에 보통 10~100개 정도의 예시를 넣고, 마지막 입력에 대한 출력을 이어 쓰게 하는 방식이야. one-shot은 예시 1개, zero-shot은 예시 없이 지시문만 주는 조건이고, 세 조건 모두 추론 때 forward pass만 쓴다는 점이 중요해.

그래서 GPT-3를 업무에 붙인다면 “학습 데이터셋을 새로 만들지 않고도 간단한 텍스트 작업을 시험해 볼 수 있는 모델”로 읽는 게 맞아. 반면 오늘의 ChatGPT식 대화, 긴 문서 처리, 도구 호출, 최신 API 운영까지 GPT-3 하나로 기대하면 바로 어긋나. 그건 GPT-3.5, GPT-4, GPT-5 계열에서 따로 봐야 하는 층위야.

왜 중요한가

GPT-3가 중요한 이유는 scale과 사용법이 같이 바뀌었기 때문이야. OpenAI 논문은 125M부터 175B까지 여덟 크기를 비교했고, 모든 모델을 총 300B 토큰으로 학습했다고 적었어. 가장 큰 175B 모델은 GPT-2의 1.5B와 비교하면 두 자릿수 이상 커졌고, 이 크기 차이가 zero-shot, one-shot, few-shot 결과의 차이로 꽤 선명하게 드러났어.

데이터 쪽도 크기만 보면 안 돼. 논문은 2016~2019년 Common Crawl 41개 shard에서 45TB compressed plaintext를 가져와 filtering 후 570GB로 줄였고, 최종 학습 혼합에는 filtered Common Crawl 410B tokens, WebText2 19B, Books1 12B, Books2 55B, Wikipedia 3B tokens를 썼다고 설명해. 이런 구성을 알아야 GPT-3가 웹 문체와 공개 텍스트에 강하면서도 bias와 contamination 문제를 같이 안고 있다는 점이 보인다.

배포 방식도 기준점이 됐어. GPT-2는 악용 우려 때문에 단계적으로 공개됐다가 나중에 1.5B 가중치가 공개됐지만, GPT-3는 처음부터 OpenAI API private beta 중심으로 제공됐어. OpenAI는 API가 misuse 대응과 production review를 가능하게 한다고 설명했고, 2020년 9월에는 Microsoft가 GPT-3 기술을 라이선스했어. 이후 LLM을 “다운로드하는 모델”보다 “API로 호출하는 제품”으로 접하는 흐름이 훨씬 커졌어.

주의해서 볼 점

첫째, GPT-3의 few-shot을 실제 학습처럼 읽으면 안 돼. 논문도 GPT-3가 새 작업을 진짜 처음부터 배우는지, 아니면 학습 중 본 패턴을 다른 형식으로 알아보는지 불확실하다고 남겼어. 프롬프트 예시는 모델의 일시적 작업 조건이지, 모델 안 지식이나 정책을 영구히 바꾸는 장치가 아니야.

둘째, 175B라는 숫자가 만능을 뜻하지 않아. 논문은 GPT-3가 문서 수준에서 의미를 반복하거나 긴 글에서 coherence를 잃고, 서로 비교해야 하는 WIC·ANLI류 과제와 일부 독해 과제에서 약하다고 적었어. 상식 물리 질문, bias, calibration, 비싼 inference도 한계로 남아 있었어.

셋째, GPT-3는 가중치가 공개된 로컬 모델이 아니야. OpenAI API와 Microsoft 라이선스라는 배포 경로가 핵심이었고, 그래서 재현성·감사 가능성·비용 통제는 공개 모델과 다르게 판단해야 해. 최신 시스템을 새로 고르는 상황이라면 GPT-3 이름보다 현재 제공되는 OpenAI API 모델, 가격, 컨텍스트 한도, 안전 정책을 다시 확인하는 편이 맞아.

같이 보면 좋은 모델

GPT-2: GPT-3가 무엇을 키웠는지 보려면 가장 바로 이어지는 전 단계야. 1.5B 공개 가중치와 단계적 공개 논쟁이 GPT-3의 API 배포와 대비돼.
GPT: GPT-3의 이름이 서비스명이 아니라 생성형 사전학습 Transformer 계열이라는 점을 잡을 때 기준이 돼.
Language Model: GPT-3를 제품보다 먼저 언어 모델 범주에 놓으면, 다음 토큰 예측과 in-context 사용법이 어떻게 이어지는지 이해하기 쉬워.
LLM: GPT-3는 대규모 언어 모델이라는 말이 산업적으로 퍼지는 데 큰 기준점이 됐어. 최신 LLM과 비교할 때는 크기보다 배포 방식과 사용 경험까지 같이 봐야 해.
Context Window: GPT-3의 2,048 토큰 제한을 보면, 프롬프트 예시를 넣는 few-shot 방식이 왜 입력 길이에 바로 묶였는지 보인다.
OpenAI: GPT-3의 API beta, Microsoft 라이선스, 이후 ChatGPT 계열로 이어지는 배포 전략을 같이 읽을 때 필요해.

이 항목을 참조하는 위키

포맷 v3 가이드 wiki 3.2.0

팩트 체크

통과 · 2026-05-03 KST

검증 생성: AI + 편집 검토 · 2026-05-03 상태: 통과

통과 원문 대조

OpenAI 발표문과 논문을 기준으로 GPT-3를 2020년 few-shot 언어 모델 계열과 API 배포 사례로 맞춰 봤어.

독자 문제 대조: GPT-3를 현재 주력 챗봇 이름으로 읽을지, 2020년 few-shot 연구 모델 계열로 읽을지 먼저 갈라야 해서 family 모델로 적었어.
OpenAI GPT-3 발표문은 GPT-3를 175B 파라미터 autoregressive 언어 모델로 소개하고, gradient update 없이 프롬프트와 예시만으로 작업을 지정한다고 설명해.
논문 표는 125M부터 175B까지 여덟 모델 크기와 300B training tokens를 제시해서, 본문과 modelProfile의 크기 설명을 그 범위로 제한했어.
OpenAI API 글은 2020년 6월 API가 GPT-3 family weights를 기반으로 text-in/text-out 인터페이스를 제공했고 private beta로 시작했다고 설명해.

통과 교차 검증 검증 출처 6

공식 발표, 논문, API 글, 2020년 라이선스 발표, GPT-2 발표문, 보조 백과 정보를 나눠 보고 기술 사실과 배포 정책을 섞지 않게 정리했어.

비교 기준: 구조와 수치는 논문을 기준으로 두고, API 접근과 공개 방식은 OpenAI API 글과 2020년 9월 발표에서 따로 확인했어.
GPT-2 글은 1.5B 모델과 단계적 공개 논쟁을 보여 주고, GPT-3 API 글은 가중치 공개 대신 통제 가능한 API 접근을 택했다는 배포 차이를 보여 줘.
Microsoft 라이선스 글은 2020년 9월 GPT-3가 OpenAI API의 가장 강한 모델이었고 175B 파라미터라고 다시 확인해.
Wikipedia는 2,048 토큰 context window와 2020년 5월 논문 공개, 2020년 6월 API beta 시점을 보조 확인하는 데만 썼고, 핵심 기술 claim은 공식 논문에 우선순위를 뒀어.

통과 수치 검증

본문과 modelProfile에 들어간 파라미터, 학습 토큰, 데이터 구성, context 숫자를 논문과 보조 출처 기준으로 다시 맞췄어.

가장 큰 모델은 175B 파라미터이고, 논문 표 기준 96층, d_model 12,288, attention head 96개, head dimension 128로 적었어.
여덟 크기는 125M, 350M, 760M, 1.3B, 2.7B, 6.7B, 13B, 175B이고, 모든 모델은 총 300B tokens로 학습됐다고 적었어.
학습 데이터 설명은 filtered Common Crawl 410B tokens, WebText2 19B, Books1 12B, Books2 55B, Wikipedia 3B라는 논문 표를 기준으로 했어.
Common Crawl 원천은 2016~2019년 41개 shard, 45TB compressed plaintext, filtering 후 570GB라는 논문 수치를 확인했어.
context window는 Wikipedia가 논문 페이지를 인용해 제시한 2,048 tokens를 보조 근거로 삼았고, 본문에서는 최신 긴 문맥 모델과 혼동하지 않게 제한으로 적었어.

통과 비판 검토

GPT-3를 최신 API 추천 모델, 공개 가중치 모델, 또는 프롬프트만으로 새 작업을 실제로 학습하는 모델처럼 과장하지 않게 경계를 세웠어.

few-shot learning은 가중치 업데이트가 아니라 프롬프트 안 예시를 조건으로 삼는 방식이라서, fine-tuning이나 새 지식 학습처럼 쓰지 않았어.
논문이 직접 적은 한계인 반복, 긴 글의 coherence 저하, 비교 과제와 일부 독해 과제의 약점, bias와 비싼 inference 문제를 주의 섹션에 남겼어.
가중치 공개와 API 접근을 구분해, GPT-2의 최종 가중치 공개와 GPT-3의 API 중심 배포를 같은 공개 방식으로 묶지 않았어.
GPT-3.5, ChatGPT, GPT-4 이후 모델을 GPT-3와 같은 항목으로 뭉개지 않도록 본문에서 successor와 사용 장면을 분리했어.

이 페이지에서 가장 쉬운 오해는 GPT-3의 few-shot을 실제 training이나 fine-tuning으로 읽는 거야.
또 하나의 오해는 175B라는 숫자를 현재 모델 선택 기준으로 쓰는 건데, 현재 적용 판단은 후속 API 모델과 가격표를 따로 봐야 해.

출처: Language models are few-shot learners , Language Models are Few-Shot Learners , OpenAI API , OpenAI licenses GPT-3 technology to Microsoft , Better language models and their implications , GPT-3 - Wikipedia

GPT-3 (지피티-3)

전체 AI 기술 맵에서의 위치

한 줄 정의

이 모델로 무엇을 할 수 있나

왜 중요한가

주의해서 볼 점

같이 보면 좋은 모델

관련 용어

이 항목을 참조하는 위키