한 줄 정의

NVIDIA 체크포인트는 NVIDIAGemma 4의 26B A4B IT 모델을 NVFP4양자화Hugging Face에 올린 추론용 모델이야. 체크포인트는 내려받아 실행하는 모델 파일 묶음이고, 검색어로 gemma 4 26b a4b nvfp4가 들어오면 이 배포판을 가리키는 경우가 많아. 새 Gemma 계열 이름이라기보다, 기존 A4B MoE 모델을 BlackwellvLLM 쪽에서 더 작게 돌려 보려는 배포판이라고 보면 돼.

여기서 이름을 세 조각으로 나눠 읽으면 덜 헷갈려. 앞부분은 원본 계열과 MoE 구조를 말하고, NVFP4가중치와 활성값을 낮은 정밀도로 줄인 NVIDIA 양자화 경로를 말해. 그래서 이 페이지의 핵심은 “Gemma 4가 무엇인가”보다 “이 체크포인트를 어떤 GPU와 런타임 조건에서 볼 만한가”야.

이 모델로 무엇을 할 수 있나

먼저 떠올릴 용도는 로컬 LLM이나 사내 서버에서 이 26B MoE 모델을 직접 서빙하는 실험이야. Hugging Face 모델 카드vLLM으로 serve를 시작하고, tool call parser와 reasoning parser를 gemma4로 맞추는 설정 경로를 보여 줘. 관리형 API처럼 버튼 하나로 쓰는 모델이 아니라, 컨테이너, CUDA, MoE backend, GPU 메모리 예산을 직접 맞춰야 하는 쪽이야.

작업 범위는 원본 IT 모델의 범위를 따라가지만, 이 페이지에서는 입력과 출력이 분명한 작업부터 보는 편이 좋아.

  • 긴 문서 요약: 텍스트를 넣고 텍스트 요약을 받는 작업이야.
  • 코드 보조: 이슈 설명이나 파일 일부를 넣고 수정 방향, 테스트 아이디어, 짧은 코드 조각을 받는 작업이야.
  • 이미지 데이터 추출: 이미지와 지시문을 같이 넣고 표, 항목, 설명 같은 텍스트 출력을 받는 작업이야.
  • 함수 호출 실험: tool call parser를 맞춘 뒤 도구 이름과 인자 형식이 흔들리지 않는지 보는 작업이야.

모델 카드는 supported modalities를 Text와 Image로 적고, 출력은 Text로 잡아. 영상은 프레임 시퀀스로 다룰 수 있지만, 오디오 네이티브 입력까지 이 checkpoint의 기본 범위처럼 읽으면 과해.

배포할 때는 작아졌다보다 어디서 작아졌나를 봐야 해. 전체 모델 구조는 25.2B total, 3.8B active, 30 layers, 256K 컨텍스트야. NVFP4가 BF16보다 가중치 이동량을 줄여 줄 수는 있지만, 긴 입력을 넣으면 KV cache가 따로 붙고, 토큰 처리량은 prefill과 decode에서 다르게 나온다.

세 층을 분리해 두면 도입 판단이 덜 흐려져.

구분무엇을 말하나이 페이지에서 쓰는 근거
Base 26B A4BGoogle DeepMind가 공개한 25.2B total, 3.8B active MoE 모델 축NVIDIA 제품군 표
NVIDIA checkpointNVIDIA Model Optimizer가 NVFP4로 양자화해 올린 Hugging Face artifactHugging Face 모델 카드의 구조, 평가, vLLM 사용 설명
주변 벤치마크DGX Spark에서 비슷한 26B NVFP4 배포판을 돌린 커뮤니티 테스트AI Muninn 글의 별도 checkpoint 실행 기록

왜 중요한가

이 체크포인트가 중요한 이유는 26B급 오픈 모델을 Blackwell 장비에서 얼마나 작게 돌릴 수 있는지 보는 공식 artifact 사례이기 때문이야. Hugging Face 평가 표는 BF16 baseline과 NVFP4를 나란히 두고, GPQA Diamond 80.30%79.90%, MMLU Pro 85.00%84.80%, LiveCodeBench pass@1 80.50%79.80%처럼 작은 차이의 수치를 제시해. 이 표는 vendor/model-card evaluation이고, 실제 서비스 프롬프트나 다른 GPU의 품질 보장표가 아니야.

운영 관점에서는 오히려 제한 조건이 더 중요해. 저장소는 supported runtime engine을 vLLM로 적고, hardware microarchitecture를 NVIDIA Blackwell로 잡아. 또 현재 설명은 TP=1만 언급하고, MoE backend도 VLLM_CUTLASSMarlin 같은 선택지에 걸려 있어. 그러니까 이 이름을 보면 “아, 아무 GPU에서나 4비트 Gemma가 된다”가 아니라 “내 런타임이 이 체크포인트의 NVFP4 경로를 실제로 타나”를 먼저 물어야 해.

AI Muninn의 DGX Spark 글은 현장 감각을 주지만, 정확히는 bg-digitalservices의 별도 26B NVFP4 배포판을 테스트한 주변 커뮤니티 벤치마크야. 그 글의 52 tok/s decode, 16.5GB model memory, 82GB KV cache 여유, 3개 동시 요청 114.6 tok/s aggregate throughput은 이 NVIDIA Hugging Face artifact를 직접 검증하는 숫자가 아니야. 내 서비스에서는 같은 prompt 묶음으로 BF16 또는 FP8 기준선, NVFP4, batch 크기, context 길이를 나눠 다시 재야 해.

건너뛸 조건도 분명해. Blackwell GPU가 없거나, vLLM이 이 checkpoint를 올릴 때 MoE backend 경고를 내거나, 짧은 smoke test에서 첫 응답 전 NaN/Inf·반복·메모리 부족이 보이면 이 경로를 기본값으로 잡지 않는 게 좋아. 통과 기준은 단순해. 같은 입력 20개 안팎으로 BF16 또는 FP8 기준선과 비교해서 p50·p95 지연, 최대 VRAM, 출력 품질 회귀를 같이 적어야 해.

같이 보면 좋은 모델

  • Gemma 4: 이 체크포인트의 원본 모델 계열을 볼 때 기준이 돼. 31B dense, 26B A4B, E4B, E2B가 같은 이름 아래에서 어떻게 갈리는지 먼저 잡을 수 있어.
  • A4B MoE: 26B인데 왜 토큰당 활성 경로는 3.8B인지 설명하는 표기야. NVFP4와 A4B를 섞어 보면 메모리 절감과 계산 경로 절감을 구분할 수 있어.
  • NVFP4: 이 체크포인트의 양자화 포맷을 따로 설명해. INT4 파일 압축인지, Blackwell FP4 경로인지, vLLM 체크포인트인지 갈라 볼 때 필요해.
  • Blackwell: 모델보다 GPU 세대와 커널 지원을 확인해야 하는 이유를 보여 줘. B200, GB10, RTX PRO 같은 제품군은 같은 세대 이름을 써도 메모리와 대역폭 조건이 달라.
  • DeepGEMM: FP4, BF16, MoE 커널 이야기가 모델 품질이 아니라 GPU 실행 경로와 연결된다는 점을 볼 때 같이 읽기 좋아.