한 줄 정의

GPT-2 (지피티-2)는 OpenAI가 2019년에 공개한 텍스트 생성용 Transformer 언어 모델 계열이야. 이전 문맥을 보고 다음 토큰을 맞히도록 학습한 모델이고, 논문 표에서는 가장 큰 모델을 1542M으로 쓰지만 공개 체크포인트와 release 글에서는 1.5B 또는 1558M full-size 라벨을 같이 써.

핵심은 성능보다 공개 방식이었어. OpenAI는 2019년 2월에 GPT-2가 그럴듯한 긴 글을 만들고 요약, 번역, 질의응답 같은 작업을 prompt만으로 일부 해내는 모습을 보였지만, 악용 우려 때문에 처음에는 공개 체크포인트 라벨 기준 124M 소형 모델만 공개했어. 그 뒤 355M, 774M 단계를 거쳐 2019년 11월 5일 1.5B 모델의 코드와 가중치까지 공개했어.

이 모델로 무엇을 할 수 있나

GPT-2의 기본 사용법은 글 이어쓰기야. 예를 들어 프롬프트를 넣으면 같은 스타일과 주제의 문장을 이어 쓰고, 충분히 흔한 주제에서는 한 페이지 넘게 일관된 글을 만들 때도 있어. 그래서 데모에서는 기사 초안, 이야기, 리뷰, 짧은 질의응답처럼 텍스트만으로 끝나는 작업에 자주 붙었어.

기술적으로는 byte-level BPE tokenizer와 1024 토큰 context-window를 쓰는 decoder-only Transformer야. OpenAI 논문 표는 117M, 345M, 762M, 1542M 네 크기를 비교했고, 공개 체크포인트 라벨은 124M, 355M, 774M, 1.5B로 읽는 편이 맞아. 가장 큰 논문 표기 모델은 LAMBADA 정확도 63.24%, LAMBADA PPL 8.63 같은 zero-shot 결과를 냈어. 다만 이 숫자는 GPT-2가 모든 작업에서 전문 모델을 이긴다는 뜻이 아니라, 다음 단어 예측만으로 여러 작업의 흔적을 어느 정도 끌어낼 수 있었다는 신호에 가까워.

지금 업무에 붙인다면 최신 LLM 대체재라기보다 연구 기준선, 로컬 추론 예제, 텍스트 생성 위험 실험, fine-tuning 실습용 모델에 더 가까워. ChatGPT식 대화 품질이나 긴 문맥 처리, 도구 호출을 기대하면 바로 낡아 보여.

왜 중요한가

GPT-2가 중요한 이유는 “큰 언어 모델이 prompt만으로 여러 작업을 흉내 낼 수 있다”는 감각을 넓게 보여줬기 때문이야. 40GB 인터넷 텍스트와 800만 웹페이지로 학습한 모델이 domain-specific 데이터 없이도 여러 언어 모델 벤치마크에서 강한 zero-shot 결과를 냈고, 이 흐름이 GPT-3와 이후 LLM 논의의 출발점 중 하나가 됐어.

동시에 GPT-2는 모델 공개 정책의 기준점이 됐어. OpenAI는 처음에 가짜뉴스, 온라인 사칭, 스팸·피싱 자동화 같은 악용 가능성을 들며 전체 모델을 바로 공개하지 않았고, 외부에서는 재현성과 개방성에 해롭다는 비판도 나왔어. 나중에 1.5B 가중치를 공개했지만, 그 사이에 “위험한 모델을 어떻게 공개해야 하나”라는 질문이 AI 연구 문화 안으로 들어왔어.

그래서 GPT-2를 읽을 때는 성능표만 보면 부족해. 1024 토큰 문맥, 50,257 vocabulary, 1542M 파라미터 같은 숫자와 함께, 공개 가중치가 연구 재현성을 돕는지, 악용 위험을 키우는지, detection 모델이 실제 방어에 충분한지까지 같이 봐야 해.

같이 보면 좋은 모델

  • GPT: GPT-2가 직접 키운 이전 계열이야. GPT-2의 “2”가 단순 버전명이 아니라 생성형 사전학습 Transformer 계열의 확장이라는 점을 잡기 좋아.
  • Language Model: GPT-2를 제품 이름보다 먼저 언어 모델 범주 안에 놓고 보면, 다음 토큰 예측과 zero-shot 전이가 왜 연결되는지 더 또렷해져.
  • LLM: GPT-2는 오늘날 기준으로는 작아 보이지만, 대규모 언어 모델을 공개하고 평가하는 방식의 초기 기준점이라 같이 보면 좋아.
  • Transformer: GPT-2의 구조적 바탕이야. self-attention 기반 decoder가 왜 긴 글 생성에 맞는지 이해할 때 바로 이어져.
  • Context window: GPT-2의 1024 토큰 제한을 보면, 최신 긴 문맥 모델과 무엇이 달라졌는지 숫자로 비교하기 쉬워.
  • OpenAI: GPT-2의 단계적 공개는 OpenAI가 이후 모델 공개와 API 중심 배포를 어떻게 고민하게 됐는지 보는 데 중요한 장면이야.