무슨 일인가

Google이 6월 5일 Gemma 4의 QAT 체크포인트를 공개했어. QAT는 양자화 학습(quantization-aware training)인데, 모델을 다 만든 뒤에 줄이는 게 아니라 학습할 때부터 “나중에 4비트로 압축될 거다”를 같이 계산하는 방식이야. 그래서 압축한 뒤에도 품질이 덜 깎여.

수치가 구체적이야. 4비트로 줄이면 메모리가 약 72% 빠지는데 성능은 거의 그대로 유지된다고 해. 가장 작은 E2B는 Q4_0 포맷에서 3.2GB, E4B는 5GB로 떨어져. 모바일 전용 포맷을 쓰면 E2B는 1GB까지 내려가거든. 라인업은 E2B, E4B, 12B, 26B-A4B, 31B까지 다 QAT 버전이 나왔어.

왜 이게 중요한가

핵심은 “내 노트북·폰에서 돌아가느냐”야. 1GB짜리 E2B는 어지간한 스마트폰에서도 텍스트 모델을 띄울 수 있는 용량이고, 3.2GB E2B나 5GB E4B는 보급형 노트북 메모리 안에 들어와. 클라우드 API 비용 없이 로컬에서 돌리려던 사람한테는 진입 문턱이 확 낮아진 거야.

모바일에 욱여넣으려고 쓴 기법도 구체적이야:

  • 정적 활성화: 스케일 계산을 학습 때 미리 끝내서 기기에서 할 일을 줄여
  • 채널별 양자화: 모바일 칩 구조에 맞춰 정밀도를 배분해
  • 토큰 생성층 2비트 압축: 글자를 만들어내는 층만 골라 더 세게 줄여
  • KV 캐시 최적화: 대화 중에 실제로 쓰는 메모리를 줄여

주의할 점

“성능 거의 유지”는 Google 자체 평가 기준이야. QAT가 일반적인 사후 양자화(PTQ)보다 품질이 낫다고 밝혔지만, 독립 벤치마크 수치는 아직 많지 않으니 직접 돌려보고 판단하는 게 맞아. 그리고 1GB는 모바일 전용 포맷에 텍스트 전용일 때 얘기라, 일반 Q4_0 버전(3.2GB)과는 다른 숫자라는 것만 구분해두면 돼.