이 뉴스의 요약은 어떻게 만들어졌나요?

원문 링크를 바탕으로 핵심 요약을 만들고 fact-check 및 신호 점검을 거쳐 게재됩니다.

팩트체크 기준은 무엇인가요?

근거 링크, 수치 점검, 문맥 정합성, 최신성으로 조합해 상태를 표시해.

z-lab, Gemma-4 26B용 DFlash 공식 드래프트 공개 — 동시 8 추론에서 3.7배 가속

z-lab이 Gemma-4 26B-A4B용 DFlash 드래프트 모델을 5월 8일 Hugging Face에 공개했어. 블록 디퓨전 기반 스펙큘레이티브 디코딩으로 동시 추론 8건에서 3.7배 가속을 기록했고, vLLM과 SGLang에서 곧장 쓸 수 있어. 일주일 전 MTP 흐름이 주목받던 와중에 묻힐 뻔하다 다시 끌어올려졌어.

무슨 일이 일어났나

z-lab이 Google Gemma-4 26B-A4B용 DFlash 드래프트 모델을 5월 8일 Hugging Face에 공개했어. 동시 추론 8건 환경에서 최대 3.7배 가속이 모델 카드에 적혀 있고, 작업에 따라 1.8배에서 3.7배 사이로 분포해. Math500 벤치마크에서는 분당 토큰 처리가 1,296에서 4,837 tok/s로 올랐어.

설치는 vLLM 또는 SGLang 두 경로 모두 지원해. 드래프트 토큰 수는 vLLM이 15개, SGLang이 16개로 약간 다르게 잡혀 있어.

왜 이게 일어났나

DFlash는 블록 디퓨전을 스펙큘레이티브 디코딩 드래프트로 쓰는 방식이야. arXiv에 공식 논문이 2월 5일 올라왔고, GitHub 저장소도 같이 공개됐어. 작은 드래프트 모델이 여러 후보 토큰을 한 번에 만들고, 큰 베이스 모델이 묶어서 검증하는 흐름이라 단일 토큰씩 생성하는 일반 디코딩보다 처리량이 늘어나.

LocalLLaMA 커뮤니티에서 이게 다시 주목받은 맥락이 따로 있어. 지난 며칠은 MTP(Multi-Token Prediction) 화제가 우세했는데, Reddit 사용자가 “Gemma-4 26B용 DFlash가 이미 며칠 전에 풀려 있었는데 다들 놓쳤다”고 글을 올리면서 5월 8일 다시 끌어올려졌어. 노이즈 속에서 묻혔다가 재발견된 케이스야.

어떤 의미인가

Gemma-4 26B-A4B는 활성 파라미터 4B의 MoE 구조라, 26B 전체를 다 띄울 필요 없이 4B만 활성화돼. 여기에 DFlash를 얹으면 처리량이 한 번 더 늘어나는 셈이야. 셀프호스트 환경에서 다중 사용자를 받는 워크로드라면 동시 8 추론 기준 3.7배가 그대로 비용 절감으로 이어져.

다만 단일 사용자 환경에서는 효과가 줄어들 수 있어. 동시성이 낮을 때는 가속비가 1.8배 근처로 떨어진다는 게 모델 카드 표에서 확인돼. 자기 워크로드의 동시 처리 특성에 맞춰 PoC를 돌리는 게 합리적이야.

주의해서 볼 점

이 z-lab 버전은 vLLM과 SGLang에서만 돌아가. llama.cpp/GGUF 사용자라면 별도 포팅이 필요한데, 4월 28일 Luce-Org가 Qwen3.5-27B용 GGUF 포팅을 공개한 사례가 있어 Gemma-4 GGUF 버전도 곧 나올 가능성이 높아. 또 DFlash와 MTP는 동시에 적용할 수 없으니 둘 중 어느 노선이 자기 작업에서 더 빠른지 직접 측정해서 갈라야 해.

태그

#dflash#gemma-4#speculative-decoding#vllm#moe

포맷 v3 가이드 news 3.3.0

팩트 체크

통과 · 2026-05-09 KST

검증 생성: AI + 편집 검토 · 2026-05-09 상태: 통과

통과 원문 대조

Hugging Face 모델 카드, GitHub 저장소, arXiv 논문에서 수치 일치

z-lab/gemma-4-26B-A4B-it-DFlash 모델 카드 존재 — Hugging Face 직접 확인
DFlash 동시 8 추론 3.7배 가속 — 모델 카드 명시
vLLM과 SGLang 모두 지원 — 모델 카드 코드 예시 확인

통과 교차 검증 검증 출처 3

Hugging Face·GitHub·arXiv 3개 1차 출처로 교차검증

DFlash 논문 arXiv 게재 2026년 2월 5일 — arXiv URL 확인
z-lab 조직 657 팔로워 — Hugging Face 페이지 확인
Math500 동시 8에서 4,837 vs 1,296 tok/s — 모델 카드 명시

통과 수치 검증

구체 가속 수치와 토큰 처리량을 모델 카드에서 확인

최대 3.7배 가속 (동시 추론 8건 기준) — 모델 카드 명시
가속 범위 1.8x~3.7x (작업과 동시성에 따라) — 모델 카드 표
vLLM 드래프트 토큰 15개, SGLang 드래프트 토큰 16개 — 모델 카드 설정

통과 비판 검토

z-lab 자체 벤치마크라 워크로드 일반화에는 추가 검증 필요

벤치마크가 z-lab 자체 측정으로 독립 검증 부족
동시 추론 8건 기준 3.7배 — 단일 사용자 환경에서는 효과가 줄어들 수 있음
Gemma-4 26B-A4B는 활성 파라미터 4B의 MoE 모델 — 일반 dense 모델과 단순 비교 어려움

최대 3.7배는 동시 8 추론·Math500 기준 결과로, 단일 사용자 환경이나 다른 작업에서는 1.8x로 떨어질 수 있음
Luce-Org가 4월에 공개한 GGUF 포팅과 달리 이 z-lab 버전은 vLLM·SGLang 한정 — llama.cpp 사용자는 별도 포팅 필요

출처: Hugging Face — z-lab/gemma-4-26B-A4B-it-DFlash , GitHub — z-lab/dflash (DFlash 공식 구현) , arXiv — DFlash: Block Diffusion for Flash Speculative Decoding