한 줄 정의
LLM(Large Language Model)은 스마트폰 자동완성 키보드의 극한 버전이야. 인터넷 텍스트 수십억 건을 읽고 “다음 단어 맞추기”를 반복하다 보니, 어느새 코딩도 하고 논문도 요약하는 수준이 된 거대 신경망이거든.
작동 원리
스마트폰 키보드에서 “오늘 저녁”까지 치면 “뭐 먹지?”가 자동으로 뜨잖아. LLM도 원리는 같아. 앞의 텍스트를 보고 다음에 올 단어(정확히는 토큰, 단어 조각)를 예측해. 이걸 계속 반복하면 문장이 되고 글이 돼.
차이는 규모야. 스마트폰 키보드는 몇만 개 패턴을 쓰지만, GPT-4는 1조 개가 넘는 파라미터로 인터넷 텍스트 수조 개를 학습했어. 규모가 커지니까 단순 자동완성이 아니라 추론, 번역, 코딩까지 되기 시작한 거지.
학습은 보통 두 단계를 거쳐.
- 사전학습(Pre-training): 인터넷에서 수집한 대량의 텍스트로 다음 토큰 예측을 반복해. 이 과정에서 문법, 사실 지식, 추론 패턴 같은 것들이 파라미터에 압축돼. GPT-4의 사전학습에는 수천만 달러가 들었다고 알려져 있어.
- 정렬(Alignment): RLHF 같은 기법으로 사람이 원하는 방식으로 응답하도록 조정해. “폭탄 만드는 법 알려줘”를 거부하고 “코드 리뷰해줘”에 잘 따르게 만드는 단계인 셈이야.
대부분의 LLM은 트랜스포머 아키텍처를 기반으로 해. GPT-4, Claude 3.5 Sonnet, Gemini, Llama 3 같은 모델이 대표적이지.
왜 중요한가
이전 AI는 “번역 모델”, “요약 모델”, “감정 분석 모델” 이렇게 작업마다 따로 만들었거든. LLM은? 하나로 다 해. 번역, 요약, 코딩, 분석, 창작 — 추가 학습 없이. 작업별로 모델 따로 만들던 시대에서, 하나의 기반 모델을 여러 용도로 쓰는 시대로 넘어온 거야.
근데 이게 그냥 이론 얘기가 아니거든. 실무에서 이미 곳곳에 깔려 있어. GitHub Copilot이 코드 짜주고, Cursor가 프로젝트 전체를 이해하고, 고객센터 챗봇이 24시간 응대하고 있잖아. 2024년 기준 Fortune 500 기업의 92%가 LLM을 어떤 형태로든 업무에 쓰고 있다는 조사 결과도 있어.
한계도 분명해. 학습 데이터에 없는 최신 정보를 모르고, 긴 문맥을 정확히 다루기 어렵고, 자신감 있게 거짓말을 해. RAG, 파인튜닝, 에이전트 같은 기법들은 전부 이 한계를 보완하려고 나온 것들이야.
관련 용어
- 트랜스포머 — 거의 모든 LLM의 뼈대가 되는 아키텍처야. 2017년 구글이 발표한 “Attention Is All You Need” 논문에서 시작됐어.
- 파인튜닝 — 범용 LLM을 특정 작업에 맞게 추가 학습시키는 기법이야. 기성복을 맞춤 수선하는 것과 비슷해.
- RLHF — “이 답변이 좋아요/싫어요” 피드백으로 LLM을 사람 취향에 맞추는 학습법이야.
- 추론 (인퍼런스) — 학습 끝난 LLM이 실제로 답변을 생성하는 과정이야. 시험 공부(학습)가 끝나고 시험 치는(추론) 단계라고 보면 돼.
- 컨텍스트 윈도우 — LLM이 한 번에 읽을 수 있는 텍스트 양의 상한이야. Claude 3.5 Sonnet은 20만 토큰, GPT-4 Turbo는 12.8만 토큰이야.