한 줄 정의
Small Language Model은 큰 언어 모델보다 훨씬 적은 파라미터와 자원으로 굴리도록 만든 언어 모델이야. Azure 설명과 SmolLM 소개를 같이 보면, 그냥 작다는 말보다 제한된 하드웨어에서 빠르고 싸게 쓰려는 전략이라는 점이 더 잘 보여.
어떻게 작동하나
보통은 학습 데이터 선택을 더 빡세게 하거나 distillation, 구조 단순화, 경량화 같은 방법으로 모델 크기를 줄여. 공개 사례만 봐도 3개 대표 크기 예시가 바로 보일 정도로 폭이 넓어서, SLM은 단일 규격이라기보다 배포 제약에 맞춘 설계 묶음에 가까워.
왜 중요한가
현업에서는 최고 점수 모델보다 응답 속도와 운영비처럼 2개 기준이 더 중요할 때가 많아. 그래서 기사에서 SLM이 나오면 성능 대결 기사라기보다 배포 전략, 비용 절감, 로컬 실행 얘기일 가능성이 더 커.
주의해서 볼 점
작다고 해서 무조건 실용적인 건 아니야. 같은 SLM이라도 목표 작업, 토크나이저, 학습 데이터 질, 추론 엔진에 따라 체감 성능 차이가 커서 파라미터 수만 보고 판단하면 틀리기 쉬워.
관련 용어
- quantization: 이미 있는 모델을 더 적은 비트로 저장하고 계산하게 만들어서 메모리와 지연 시간을 줄이는 기법이야. 작은 모델을 만드는 전략과는 다르지만 실제 배포에서는 자주 같이 붙어.
- distillation: 큰 모델이 낸 패턴을 작은 모델이 따라 배우게 해서 성능 손실을 줄이려는 방법이야. SLM 문맥에서 가장 자주 같이 언급되는 압축 기법 중 하나야.
- local-llm: 로컬 장치에서 모델을 직접 돌리는 배포 방식 쪽 표현이야. SLM은 그 방식을 가능하게 만드는 모델 크기 선택에 더 가깝다고 보면 돼.
- prompt-caching: 반복되는 프롬프트 계산을 재사용해서 비용과 시간을 줄이는 기법이야. 모델 자체를 작게 만드는 SLM과는 다른 레이어의 최적화야.