한 줄 정의

Language Model은 텍스트 문맥을 보고 다음 토큰이나 가려진 토큰이 무엇일지 예측하도록 학습한 모델이야. 한국어로는 언어 모델이라고 부르고, 문장을 이어 쓰거나 문장 안 의미를 파악하는 여러 NLP 작업의 바탕이 돼.

여기서 중요한 건 언어 모델이 특정 챗봇 이름이 아니라는 점이야. GPT-2처럼 앞에서부터 다음 단어를 예측하는 모델도 있고, BERT처럼 문장 가운데 일부를 가려 놓고 좌우 문맥으로 맞히는 모델도 있어. 둘 다 텍스트 패턴을 배워서 언어 작업에 쓰지만, 적용하는 방향은 꽤 달라.

어떻게 작동하나

언어 모델은 먼저 문장을 tokenizer가 만든 토큰 단위로 바꿔서 계산해. 그다음 Transformer 같은 구조 안에서 앞뒤 문맥을 반영하고, 다음에 올 토큰이나 비어 있는 토큰의 확률을 고르는 방식으로 출력을 만들어.

예를 들어 GPT-2는 2019년에 공개된 설명에서 40GB 인터넷 텍스트와 8백만 웹페이지 데이터셋으로 학습한 1.5B 파라미터 Transformer 기반 언어 모델로 소개됐어. 목표는 이전 단어들을 보고 다음 단어를 예측하는 쪽이었고, 그래서 긴 글 이어 쓰기와 요약, 번역 같은 작업을 프롬프트만으로 어느 정도 시도할 수 있었어.

BERT는 반대 방향에서 보기 좋아. 2018년 논문은 입력 WordPiece 토큰의 15%를 예측 대상으로 고르고, 좌우 문맥을 같이 보게 하는 masked LM 목표를 썼어. BERT_BASE는 12층 110M 파라미터, BERT_LARGE는 24층 340M 파라미터로 제시됐고, 질문 답변이나 문장 관계 판단 같은 이해 작업에 fine-tuning해서 쓰는 흐름을 보여 줬어.

왜 중요한가

기사에서 언어 모델이라는 말이 나오면, 먼저 제품 이름이 아니라 텍스트를 다루는 모델 계층을 말하는지 확인하면 돼. 그 위에 챗봇 UI, 검색 보조, 코딩 도구, 문서 요약 기능이 올라가도 바닥에는 입력을 토큰으로 읽고 출력을 토큰으로 만드는 모델이 있는 경우가 많아.

이 구분을 잡아 두면 LLM도 덜 헷갈려. LLM은 언어 모델 중에서도 파라미터와 데이터 규모가 큰 계열이고, Small Language Model은 같은 언어 모델 범주 안에서 비용과 배포 제약을 더 강하게 보는 선택지야. 그래서 “언어 모델이 좋아졌다”는 말만으로는 실제 업무에 적용할 수 있는지 알 수 없어. context-window, inference 비용, 지연 시간, 정확도 검증을 따로 봐야 해.

주의해서 볼 점

첫째, 언어 모델은 말이 자연스러워도 사실을 검증하는 장치가 아니야. 다음 토큰을 잘 고르는 능력과 최신 정보 확인, 숫자 계산, 사내 규칙 준수는 다른 문제야. 실제 적용에서는 검색 연결, 평가 데이터, 승인 흐름을 함께 설계해야 해.

둘째, BERT와 GPT를 같은 이름 아래에 둔다고 해서 같은 일을 잘한다는 뜻은 아니야. BERT는 양방향 문맥을 써서 문장 이해와 분류, 질문 답변 쪽에 강점을 보여 줬고, GPT-2는 이전 문맥을 보고 긴 텍스트를 이어 쓰는 생성 쪽에서 많이 언급됐어. 그래서 모델 발표를 읽을 때는 “언어 모델”이라는 큰 범주 다음에 예측 목표와 사용 장면을 한 번 더 확인하는 게 좋아.

셋째, 모델 크기 숫자만으로 판단하면 금방 틀려. 110M, 340M, 1.5B 같은 파라미터 수는 규모를 가늠하게 해 주지만, 실제 품질은 데이터 구성, training 방식, context-window, 배포 엔진까지 같이 움직여. 숫자는 출발점이고, 적용 가능성은 테스트에서 갈려.