이 용어는 어디까지 신뢰할 수 있나요?

이 NVIDIA 체크포인트는 NVIDIA가 Gemma 4의 26B A4B IT 모델을 NVFP4로 양자화해 Hugging Face에 올린 추론용 모델이야. 체크포인트는 내려받아 실행하는 모델 파일 묶음이고, 검색어로 gemma 4 26b a4b nvfp4가 들어오면 이 배포판을 가리키는 경우가 많아. 새 Gemma 계열 이름이라기보다, 기존 A4B MoE 모델을 Blackwell과 vLLM 쪽에서 더 작게 돌려 보려는 배포판이라고 보면 돼.

여기서 이름을 세 조각으로 나눠 읽으면 덜 헷갈려. 앞부분은 원본 계열과 MoE 구조를 말하고, NVFP4는 가중치와 활성값을 낮은 정밀도로 줄인 NVIDIA 양자화 경로를 말해. 그래서 이 페이지의 핵심은 “Gemma 4가 무엇인가”보다 “이 체크포인트를 어떤 GPU와 런타임 조건에서 볼 만한가”야.

이 모델로 무엇을 할 수 있나

먼저 떠올릴 용도는 로컬 LLM이나 사내 서버에서 이 26B MoE 모델을 직접 서빙하는 실험이야. Hugging Face 모델 카드는 vLLM으로 serve를 시작하고, tool call parser와 reasoning parser를 gemma4로 맞추는 설정 경로를 보여 줘. 관리형 API처럼 버튼 하나로 쓰는 모델이 아니라, 컨테이너, CUDA, MoE backend, GPU 메모리 예산을 직접 맞춰야 하는 쪽이야.

작업 범위는 원본 IT 모델의 범위를 따라가지만, 이 페이지에서는 입력과 출력이 분명한 작업부터 보는 편이 좋아.

긴 문서 요약: 텍스트를 넣고 텍스트 요약을 받는 작업이야.
코드 보조: 이슈 설명이나 파일 일부를 넣고 수정 방향, 테스트 아이디어, 짧은 코드 조각을 받는 작업이야.
이미지 데이터 추출: 이미지와 지시문을 같이 넣고 표, 항목, 설명 같은 텍스트 출력을 받는 작업이야.
함수 호출 실험: tool call parser를 맞춘 뒤 도구 이름과 인자 형식이 흔들리지 않는지 보는 작업이야.

모델 카드는 supported modalities를 Text와 Image로 적고, 출력은 Text로 잡아. 영상은 프레임 시퀀스로 다룰 수 있지만, 오디오 네이티브 입력까지 이 checkpoint의 기본 범위처럼 읽으면 과해.

배포할 때는 작아졌다보다 어디서 작아졌나를 봐야 해. 전체 모델 구조는 25.2B total, 3.8B active, 30 layers, 256K 컨텍스트야. NVFP4가 BF16보다 가중치 이동량을 줄여 줄 수는 있지만, 긴 입력을 넣으면 KV cache가 따로 붙고, 토큰 처리량은 prefill과 decode에서 다르게 나온다.

세 층을 분리해 두면 도입 판단이 덜 흐려져.

구분	무엇을 말하나	이 페이지에서 쓰는 근거
Base 26B A4B	Google DeepMind가 공개한 25.2B total, 3.8B active MoE 모델 축	NVIDIA 제품군 표
NVIDIA checkpoint	NVIDIA Model Optimizer가 NVFP4로 양자화해 올린 Hugging Face artifact	Hugging Face 모델 카드의 구조, 평가, vLLM 사용 설명
주변 벤치마크	DGX Spark에서 비슷한 26B NVFP4 배포판을 돌린 커뮤니티 테스트	AI Muninn 글의 별도 checkpoint 실행 기록

왜 중요한가

이 체크포인트가 중요한 이유는 26B급 오픈 모델을 Blackwell 장비에서 얼마나 작게 돌릴 수 있는지 보는 공식 artifact 사례이기 때문이야. Hugging Face 평가 표는 BF16 baseline과 NVFP4를 나란히 두고, GPQA Diamond 80.30% 대 79.90%, MMLU Pro 85.00% 대 84.80%, LiveCodeBench pass@1 80.50% 대 79.80%처럼 작은 차이의 수치를 제시해. 이 표는 vendor/model-card evaluation이고, 실제 서비스 프롬프트나 다른 GPU의 품질 보장표가 아니야.

운영 관점에서는 오히려 제한 조건이 더 중요해. 저장소는 supported runtime engine을 vLLM로 적고, hardware microarchitecture를 NVIDIA Blackwell로 잡아. 또 현재 설명은 TP=1만 언급하고, MoE backend도 VLLM_CUTLASS나 Marlin 같은 선택지에 걸려 있어. 그러니까 이 이름을 보면 “아, 아무 GPU에서나 4비트 Gemma가 된다”가 아니라 “내 런타임이 이 체크포인트의 NVFP4 경로를 실제로 타나”를 먼저 물어야 해.

AI Muninn의 DGX Spark 글은 현장 감각을 주지만, 정확히는 bg-digitalservices의 별도 26B NVFP4 배포판을 테스트한 주변 커뮤니티 벤치마크야. 그 글의 52 tok/s decode, 16.5GB model memory, 82GB KV cache 여유, 3개 동시 요청 114.6 tok/s aggregate throughput은 이 NVIDIA Hugging Face artifact를 직접 검증하는 숫자가 아니야. 내 서비스에서는 같은 prompt 묶음으로 BF16 또는 FP8 기준선, NVFP4, batch 크기, context 길이를 나눠 다시 재야 해.

건너뛸 조건도 분명해. Blackwell GPU가 없거나, vLLM이 이 checkpoint를 올릴 때 MoE backend 경고를 내거나, 짧은 smoke test에서 첫 응답 전 NaN/Inf·반복·메모리 부족이 보이면 이 경로를 기본값으로 잡지 않는 게 좋아. 통과 기준은 단순해. 같은 입력 20개 안팎으로 BF16 또는 FP8 기준선과 비교해서 p50·p95 지연, 최대 VRAM, 출력 품질 회귀를 같이 적어야 해.

같이 보면 좋은 모델

Gemma 4: 이 체크포인트의 원본 모델 계열을 볼 때 기준이 돼. 31B dense, 26B A4B, E4B, E2B가 같은 이름 아래에서 어떻게 갈리는지 먼저 잡을 수 있어.
A4B MoE: 26B인데 왜 토큰당 활성 경로는 3.8B인지 설명하는 표기야. NVFP4와 A4B를 섞어 보면 메모리 절감과 계산 경로 절감을 구분할 수 있어.
NVFP4: 이 체크포인트의 양자화 포맷을 따로 설명해. INT4 파일 압축인지, Blackwell FP4 경로인지, vLLM 체크포인트인지 갈라 볼 때 필요해.
Blackwell: 모델보다 GPU 세대와 커널 지원을 확인해야 하는 이유를 보여 줘. B200, GB10, RTX PRO 같은 제품군은 같은 세대 이름을 써도 메모리와 대역폭 조건이 달라.
DeepGEMM: FP4, BF16, MoE 커널 이야기가 모델 품질이 아니라 GPU 실행 경로와 연결된다는 점을 볼 때 같이 읽기 좋아.

이 항목을 참조하는 위키

포맷 v3 가이드 wiki 3.2.0

팩트 체크

통과 · 2026-05-07 KST

검증 생성: AI + 편집 검토 · 2026-05-07 상태: 통과

통과 원문 대조 검증 출처 3

NVIDIA 양자화판을 Hugging Face 체크포인트로 좁혀 잡고, Google 원본 계열이나 일반 NVFP4 설명과 섞지 않았어.

독자 문제 대조: 이 이름을 새 Google 모델로 읽을지, NVIDIA Model Optimizer가 만든 낮은 정밀도 추론 배포판으로 읽을지 먼저 갈라 보게 했어.
모델 저장소는 Google DeepMind의 26B IT 기반 NVIDIA NVFP4 양자화 모델이고, release date를 2026-04-30으로 적어.
저장소 본문은 이 모델이 NVIDIA 소유나 개발 모델이 아니라 third-party base model을 특정 목적에 맞게 양자화한 것이라고 설명해.
NVIDIA family 블로그는 31B dense, 26B A4B MoE, E4B, E2B가 있고, 26B A4B가 3.8B active인 MoE 축이라는 상위 모델 맥락만 확인하는 데 썼어.

통과 교차 검증 검증 출처 3

모델 저장소, NVIDIA 제품군 블로그, 외부 DGX Spark 벤치마크를 비교해서 스펙, 배포 조건, 현장 수치를 분리했어.

비교 기준: 모델 정체성은 Hugging Face 저장소, 제품군 맥락은 NVIDIA 블로그, DGX Spark 실측 감각은 AI Muninn 글로 나눠 봤어.
모델 저장소는 supported runtime engine을 vLLM, hardware microarchitecture를 NVIDIA Blackwell, test hardware를 B200으로 적어.
NVIDIA 블로그는 이 모델군이 Blackwell 데이터센터부터 Jetson 엣지까지 배포될 수 있다는 제품군 문맥을 확인하는 데만 썼고, 이 26B NVFP4 저장소의 release 근거로 쓰지 않았어.
AI Muninn 글은 별도 26B A4B IT NVFP4 배포판을 DGX Spark GB10에서 돌린 주변 커뮤니티 벤치마크라서, NVIDIA 저장소의 성능 근거와 분리했어.

통과 수치 검증 검증 출처 3

각 숫자가 어떤 artifact에 붙는지 나눠서 확인했어. NVIDIA 저장소 숫자와 별도 커뮤니티 벤치마크 숫자를 같은 증거로 묶지 않았어.

공식 HF 구조 표는 이 배포판에 대해 25.2B total, 3.8B active, 30 layers, 1024 sliding window, 256K context, 262K vocabulary를 적어.
같은 저장소의 expert 항목은 8 active / 128 total and 1 shared expert, supported modalities Text와 Image를 적어.
공식 evaluation 표는 해당 model-card benchmark로 GPQA Diamond 80.30% 대 79.90%, MMLU Pro 85.00% 대 84.80%, LiveCodeBench 80.50% 대 79.80%를 제시해.
NVIDIA family table은 26B A4B MoE를 26B total, 3.8B active, 256K input context로 적지만, 이 표는 제품군 맥락이지 2026-04-30 Hugging Face artifact의 runtime benchmark가 아니야.
AI Muninn FAQ의 DGX Spark 수치인 52 tok/s decode, ±0.1 tok/s, 114.6 tok/s aggregate throughput은 별도 커뮤니티 배포판 테스트라서 공식 저장소의 직접 측정값으로 쓰지 않았어.

통과 비판 검토 검증 출처 3

NVFP4 이름만 보고 성능 보장, 범용 GPU 지원, 원본 모델 품질 유지로 과장하지 않게 제한 조건을 따로 점검했어.

이 체크포인트는 Blackwell과 vLLM 조건이 강해서, RTX 4090 같은 이전 세대 GPU에서 같은 경로가 열린다고 쓰지 않았어.
모델 카드의 평가 표는 해당 체크포인트와 그 벤치마크 조건의 수치라서, 모든 프롬프트에서 BF16 품질을 그대로 보장한다고 쓰지 않았어.
AI Muninn의 52 tok/s는 다른 checkpoint, DGX Spark, vLLM 0.19, MoE backend, 패치 조합이 붙은 외부 보고라서 이 NVIDIA Hugging Face artifact의 성능 스펙처럼 쓰지 않았어.
A4B를 dense 4B 모델로 읽는 오해를 막으려고 전체 25.2B 가중치와 3.8B 활성 경로를 계속 분리했어.

실무 판단은 NVFP4 체크포인트를 내려받는 것보다, 같은 프롬프트 묶음에서 BF16 기준선과 p95 지연, 최대 메모리, 품질 회귀를 같이 재는 쪽이 핵심이야.

출처: Hugging Face - NVIDIA NVFP4 checkpoint , NVIDIA Technical Blog - Bringing AI Closer to the Edge and On-Device with Gemma 4 , AI Muninn - DGX Spark NVFP4 benchmark

Gemma-4-26B-A4B-NVFP4(젬마 4 26B A4B NVFP4)

모델 프로필

상위 모델

전체 AI 기술 맵에서의 위치

한 줄 정의

이 모델로 무엇을 할 수 있나

왜 중요한가

같이 보면 좋은 모델

관련 용어

이 항목을 참조하는 위키