이 뉴스의 요약은 어떻게 만들어졌나요?

원문 링크를 바탕으로 핵심 요약을 만들고 fact-check 및 신호 점검을 거쳐 게재됩니다.

팩트체크 기준은 무엇인가요?

근거 링크, 수치 점검, 문맥 정합성, 최신성으로 조합해 상태를 표시해.

NVIDIA가 Gemma-4 26B를 NVFP4로 양자화해 49GB를 16.5GB로 줄였어

NVIDIA가 Gemma-4-26B-A4B 모델의 NVFP4 양자화 버전을 HuggingFace에 올렸어. W4A4 방식으로 49GB를 16.5GB로 줄였고, DGX Spark에서 52 tok/s가 나왔어. 로컬 커뮤니티에서는 MacBook M5 Max에서 게임 코드 작성으로 Gemma-4 31B vs Qwen3.6 27B를 비교했어.

무슨 일이 있었나

NVIDIA가 Gemma-4-26B-A4B-NVFP4를 HuggingFace에 올렸어. W4A4 방식(가중치 FP4, 활성화 FP16)으로 양자화해 원본 49GB를 16.5GB까지 줄였어. DGX Spark(GB10)에서 52 tok/s가 나왔고, 16.5GB를 사용한 뒤 남은 82GB는 KV 캐시로 쓸 수 있어.

Gemma-4-26B-A4B는 MoE(Mixture of Experts) 기반 모델이야. 전체 파라미터는 25.2B이지만 토큰을 처리할 때 활성화되는 파라미터는 3.8B라서, 메모리 대비 품질 비율이 Dense 모델보다 유리해.

커뮤니티 벤치마크

MacBook Pro M5 Max 64GB에서 게임 개발 코드 작성 과제를 직접 돌려 비교한 사람이 있었어.

Qwen3.6 27B: 32 tok/s, 과제 완료까지 18분 4초, 33,946 토큰 생성
Gemma-4 31B: 27 tok/s, 과제 완료까지 3분 51초, 6,209 토큰 생성

속도(tok/s)는 Qwen이 빨랐는데, 작업 완료 시간은 Gemma-4가 훨씬 짧았어. 총 생성 토큰 수 차이도 컸고. 단일 테스트 사례라 일반화하기 어렵지만, 과제 특성에 따라 결과가 달라질 수 있다는 걸 보여줬어.

어떤 의미인가

NVFP4는 NVIDIA Blackwell GPU 전용이라 RTX 4090 같은 이전 세대에선 사용할 수 없어. DGX Spark(GB10)는 기업용 장비이기도 하고. 하지만 bg-digitalservices, RedHatAI, Neural-ICE 같은 커뮤니티에서 자체 구현체를 HuggingFace에 올렸고, vLLM과 MLX 버전도 나왔어. Blackwell 장비가 있거나 클라우드에서 접근할 수 있는 환경이라면 지금 바로 써볼 수 있어.

태그

#gemma#nvidia#local-llm#quantization#nvfp4#huggingface

포맷 v2 가이드 news 3.1.2

팩트 체크

통과 · 2026-05-02 KST

검증 생성: AI + 편집 검토 · 2026-05-02 상태: 통과

통과 원문 대조

NVFP4 압축 수치, DGX Spark 속도, MoE 파라미터 수 공식 소스 확인

49GB → 16.5GB 압축 수치: NVIDIA HuggingFace 모델 카드 확인
DGX Spark(GB10) 52 tok/s: ai-muninn.com 벤치마크 확인
25.2B 전체 파라미터, 3.8B 활성화: NVIDIA 공식 모델 카드 확인

통과 교차 검증 검증 출처 4

NVIDIA 기술 블로그 및 커뮤니티 벤치마크 교차 확인

NVIDIA 기술 블로그: Gemma 4 NVFP4 엣지 추론 최적화 공식 확인
HuggingFace 커뮤니티 토론: 여러 독립 구현체 존재 확인
r/LocalLLaMA 게임 개발 벤치마크: MacBook M5 Max 실제 테스트 결과 확인
KV 캐시 여유 메모리 82GB: 벤치마크 리포트 확인

통과 수치 검증

주요 수치 공식 문서 및 독립 벤치마크에서 검증

49GB 원본 → 16.5GB NVFP4: 공식 모델 카드 확인
52 tok/s on DGX Spark: ai-muninn 벤치마크 보고서 확인
Qwen3.6 27B 32 tok/s 18분 4초 vs Gemma-4 31B 27 tok/s 3분 51초: Reddit 게시물 원문 확인

통과 비판 검토

NVFP4는 Blackwell GPU 전용으로 일반 소비자용 GPU에서는 사용 불가

NVFP4는 NVIDIA Blackwell 아키텍처 전용이라 RTX 4090 등 이전 세대에서는 사용 불가
DGX Spark는 기업용 서버 장비라 일반 로컬 환경과 다름
게임 개발 벤치마크는 단일 테스트 사례로 일반화에 주의 필요

NVFP4는 NVIDIA Blackwell(GB10 이상) 전용이라 일반 소비자 GPU에서는 쓸 수 없어
게임 개발 토이 프로젝트 비교라 다른 작업 유형에서는 결과가 다를 수 있어

출처: HuggingFace — nvidia/Gemma-4-26B-A4B-NVFP4 , NVIDIA Technical Blog — Gemma 4 Edge Inference , DGX Spark Gemma-4 26B NVFP4 벤치마크 , r/LocalLLaMA — Gemma-4 gamedev 벤치마크