이 뉴스의 요약은 어떻게 만들어졌나요?

원문 링크를 바탕으로 핵심 요약을 만들고 fact-check 및 신호 점검을 거쳐 게재됩니다.

팩트체크 기준은 무엇인가요?

근거 링크, 수치 점검, 문맥 정합성, 최신성으로 조합해 상태를 표시해.

Google Gemma 4 QAT 공개 — E2B 메모리 1GB까지 절감

Google이 6월 5일 Gemma 4 QAT 체크포인트를 공개했어. 학습 단계에서 양자화를 같이 시뮬레이션하는 방식으로, 4비트에서 메모리를 약 72% 줄이고도 성능을 거의 유지해. E2B는 Q4_0에서 3.2GB, 모바일 전용 포맷에선 1GB까지 떨어지거든.

무슨 일인가

Google이 6월 5일 Gemma 4의 QAT 체크포인트를 공개했어. QAT는 양자화 학습(quantization-aware training)인데, 모델을 다 만든 뒤에 줄이는 게 아니라 학습할 때부터 “나중에 4비트로 압축될 거다”를 같이 계산하는 방식이야. 그래서 압축한 뒤에도 품질이 덜 깎여.

수치가 구체적이야. 4비트로 줄이면 메모리가 약 72% 빠지는데 성능은 거의 그대로 유지된다고 해. 가장 작은 E2B는 Q4_0 포맷에서 3.2GB, E4B는 5GB로 떨어져. 모바일 전용 포맷을 쓰면 E2B는 1GB까지 내려가거든. 라인업은 E2B, E4B, 12B, 26B-A4B, 31B까지 다 QAT 버전이 나왔어.

왜 이게 중요한가

핵심은 “내 노트북·폰에서 돌아가느냐”야. 1GB짜리 E2B는 어지간한 스마트폰에서도 텍스트 모델을 띄울 수 있는 용량이고, 3.2GB E2B나 5GB E4B는 보급형 노트북 메모리 안에 들어와. 클라우드 API 비용 없이 로컬에서 돌리려던 사람한테는 진입 문턱이 확 낮아진 거야.

모바일에 욱여넣으려고 쓴 기법도 구체적이야:

정적 활성화: 스케일 계산을 학습 때 미리 끝내서 기기에서 할 일을 줄여
채널별 양자화: 모바일 칩 구조에 맞춰 정밀도를 배분해
토큰 생성층 2비트 압축: 글자를 만들어내는 층만 골라 더 세게 줄여
KV 캐시 최적화: 대화 중에 실제로 쓰는 메모리를 줄여

주의할 점

“성능 거의 유지”는 Google 자체 평가 기준이야. QAT가 일반적인 사후 양자화(PTQ)보다 품질이 낫다고 밝혔지만, 독립 벤치마크 수치는 아직 많지 않으니 직접 돌려보고 판단하는 게 맞아. 그리고 1GB는 모바일 전용 포맷에 텍스트 전용일 때 얘기라, 일반 Q4_0 버전(3.2GB)과는 다른 숫자라는 것만 구분해두면 돼.

태그

#gemma#google#quantization#on-device-ai#local-llm

포맷 v3 가이드 news 3.4.1

팩트 체크

통과 · 2026-06-06 KST

검증 생성: AI + 편집 검토 · 2026-06-06 상태: 통과

통과 원문 대조

QAT 체크포인트, Q4_0·모바일 포맷, E2B 메모리 수치, 모바일 최적화 4기법이 Google 공식 글과 일치해.

Gemma 4 E2B를 1GB 미만으로 줄였다는 내용은 Google 공식 글에서 확인
Q4_0 포맷과 모바일 전용 양자화 포맷, '표준 PTQ보다 품질이 높다'는 표현은 공식 글에서 확인
정적 활성화·채널별 양자화·토큰 생성층 2비트 압축·KV 캐시 최적화 4기법은 공식 글에서 확인

통과 교차 검증 검증 출처 3

Google 공식 발표를 MarkTechPost가 독립 보도하고, Hugging Face에 실제 체크포인트가 올라와 있어.

1차 출처 교차검증: Google 공식 글의 QAT 체크포인트 공개를 MarkTechPost가 독립 보도, Hugging Face에 google/gemma-4-E2B-it-qat-q4_0 모델 카드가 실제 존재
약 72% 메모리 절감과 E2B 3.2GB·E4B 5GB(Q4_0) 수치는 복수 보도에서 교차 확인됨
evidence: https://huggingface.co/google/gemma-4-E2B-it-qat-q4_0-unquantized — 공식 QAT 체크포인트 배포 확인

통과 수치 검증

메모리 72% 절감, E2B 3.2GB/1GB, E4B 5GB, 토큰 생성층 2비트는 보도된 수치와 일치해.

4비트에서 약 72% 메모리 절감은 교차 보도 수치
E2B는 Q4_0에서 3.2GB, 모바일 포맷에서 1GB, E4B는 Q4_0에서 5GB
토큰 생성층 2비트 압축, 모델 라인업 E2B·E4B·12B·26B-A4B·31B 확인

통과 비판 검토

Google 자체 발표라 품질 유지 주장이 자사 기준일 수 있다는 점을 감안해 표현했어.

'성능 거의 유지'는 Google 자체 평가 기준 — 독립 벤치마크 수치는 아직 제한적이라 단정 대신 인용으로 표기
1GB는 모바일 전용 포맷이고 텍스트 전용 기준 — 일반 Q4_0(3.2GB)과 구분해 적었어
QAT는 양자화 형식이지 새 모델 출시가 아님 — 기존 Gemma 4 라인업의 경량화 버전임을 명시

출처: Google — Gemma 4 with quantization-aware training , MarkTechPost — Gemma 4 QAT checkpoints , Hugging Face — gemma-4-E2B-it-qat-q4_0