무슨 일이 있었나

NVIDIAGemma-4-26B-A4B-NVFP4를 HuggingFace에 올렸어. W4A4 방식(가중치 FP4, 활성화 FP16)으로 양자화해 원본 49GB를 16.5GB까지 줄였어. DGX Spark(GB10)에서 52 tok/s가 나왔고, 16.5GB를 사용한 뒤 남은 82GB는 KV 캐시로 쓸 수 있어.

Gemma-4-26B-A4B는 MoE(Mixture of Experts) 기반 모델이야. 전체 파라미터는 25.2B이지만 토큰을 처리할 때 활성화되는 파라미터는 3.8B라서, 메모리 대비 품질 비율이 Dense 모델보다 유리해.

커뮤니티 벤치마크

MacBook Pro M5 Max 64GB에서 게임 개발 코드 작성 과제를 직접 돌려 비교한 사람이 있었어.

속도(tok/s)는 Qwen이 빨랐는데, 작업 완료 시간은 Gemma-4가 훨씬 짧았어. 총 생성 토큰 수 차이도 컸고. 단일 테스트 사례라 일반화하기 어렵지만, 과제 특성에 따라 결과가 달라질 수 있다는 걸 보여줬어.

어떤 의미인가

NVFP4NVIDIA Blackwell GPU 전용이라 RTX 4090 같은 이전 세대에선 사용할 수 없어. DGX Spark(GB10)는 기업용 장비이기도 하고. 하지만 bg-digitalservices, RedHatAI, Neural-ICE 같은 커뮤니티에서 자체 구현체를 HuggingFace에 올렸고, vLLMMLX 버전도 나왔어. Blackwell 장비가 있거나 클라우드에서 접근할 수 있는 환경이라면 지금 바로 써볼 수 있어.