무슨 일이 일어났나

z-lab이 Google Gemma-4 26B-A4B용 DFlash 드래프트 모델을 5월 8일 Hugging Face에 공개했어. 동시 추론 8건 환경에서 최대 3.7배 가속이 모델 카드에 적혀 있고, 작업에 따라 1.8배에서 3.7배 사이로 분포해. Math500 벤치마크에서는 분당 토큰 처리가 1,296에서 4,837 tok/s로 올랐어.

설치는 vLLM 또는 SGLang 두 경로 모두 지원해. 드래프트 토큰 수는 vLLM이 15개, SGLang이 16개로 약간 다르게 잡혀 있어.

왜 이게 일어났나

DFlash는 블록 디퓨전을 스펙큘레이티브 디코딩 드래프트로 쓰는 방식이야. arXiv에 공식 논문이 2월 5일 올라왔고, GitHub 저장소도 같이 공개됐어. 작은 드래프트 모델이 여러 후보 토큰을 한 번에 만들고, 큰 베이스 모델이 묶어서 검증하는 흐름이라 단일 토큰씩 생성하는 일반 디코딩보다 처리량이 늘어나.

LocalLLaMA 커뮤니티에서 이게 다시 주목받은 맥락이 따로 있어. 지난 며칠은 MTP(Multi-Token Prediction) 화제가 우세했는데, Reddit 사용자가 “Gemma-4 26B용 DFlash가 이미 며칠 전에 풀려 있었는데 다들 놓쳤다”고 글을 올리면서 5월 8일 다시 끌어올려졌어. 노이즈 속에서 묻혔다가 재발견된 케이스야.

어떤 의미인가

Gemma-4 26B-A4B는 활성 파라미터 4B의 MoE 구조라, 26B 전체를 다 띄울 필요 없이 4B만 활성화돼. 여기에 DFlash를 얹으면 처리량이 한 번 더 늘어나는 셈이야. 셀프호스트 환경에서 다중 사용자를 받는 워크로드라면 동시 8 추론 기준 3.7배가 그대로 비용 절감으로 이어져.

다만 단일 사용자 환경에서는 효과가 줄어들 수 있어. 동시성이 낮을 때는 가속비가 1.8배 근처로 떨어진다는 게 모델 카드 표에서 확인돼. 자기 워크로드의 동시 처리 특성에 맞춰 PoC를 돌리는 게 합리적이야.

주의해서 볼 점

이 z-lab 버전vLLMSGLang에서만 돌아가. llama.cpp/GGUF 사용자라면 별도 포팅이 필요한데, 4월 28일 Luce-Org가 Qwen3.5-27B용 GGUF 포팅을 공개한 사례가 있어 Gemma-4 GGUF 버전도 곧 나올 가능성이 높아. 또 DFlash와 MTP는 동시에 적용할 수 없으니 둘 중 어느 노선이 자기 작업에서 더 빠른지 직접 측정해서 갈라야 해.