무슨 일이 있었나
구글 딥마인드가 2026년 6월 10일 DiffusionGemma를 공개했어. 보통 모델처럼 토큰을 하나씩 안 만들고, 256개를 한 번에 만드는 텍스트 디퓨전 방식이야. 전용 GPU에서 최대 4배 빠르고, Apache 2.0으로 풀렸어.
어떻게 빨라지나
기존 자기회귀 모델은 왼쪽부터 오른쪽으로 한 토큰씩 순서대로 뽑아. DiffusionGemma는 256토큰짜리 블록을 한 번의 forward pass에서 병렬로 만들고, 블록 안 토큰들이 서로를 양방향으로 참조해. 이 병렬 생성 덕분에 H100에서 1000토큰/초를 넘기고 RTX 5090에서도 700토큰/초 이상이 나와. 26B MoE 구조인데 추론할 땐 3.8B만 활성화하고, 양자화하면 18GB VRAM에 들어가.
어떤 의미인가
코드 채우기나 인라인 수정처럼 앞뒤를 같이 봐야 하는 작업에서 양방향 참조가 유리해. 다만 구글 스스로 품질이 표준 Gemma 4보다 낮다고 밝혔고, 프로덕션엔 Gemma 4를 권했어. 속도가 급한 로컬·인터랙티브 작업에 실험적으로 써보고 판단해도 늦지 않아. 속도 수치는 구글 자체 측정이라, 독립 벤치마크가 나오면 다시 보는 게 맞아.