무슨 일이 일어났나

NVIDIA가 5월 23일 Nemotron-Labs Diffusion 계열을 공개했어. 텍스트 모델은 3B·8B·14B 세 사이즈, 여기에 8B 비전-언어 모델까지 같이 풀었어. 한 모델 안에서 autoregressive, diffusion, self-speculation 세 모드를 명령어 한 줄로 바꿔 쓸 수 있는 구조야. 8B 모델은 GB200 GPU에서 850 tok/sec를 기록했고, 같은 환경의 Qwen3-8B AR 추론 253 tok/sec와 비교하면 3.3배 빨라.

어떻게 작동하나

기존 autoregressive 모델토큰을 하나씩 차례로 만든다면, diffusion 모드는 32토큰 블록을 한꺼번에 잡고 여러 번 다듬어 나가는 방식이야. self-speculation 모드는 자기 자신을 드래프트 모델로 써서 양방향으로 후보를 만들고, AR 경로로 검증해. 핵심 수치 두 개를 보면 감이 와. 한 번의 forward pass에서 토큰을 5.9배 더 뽑아내고, accept length가 Eagle3 대비 3배야. 학습은 사전 학습 1.3T 토큰, 후속 학습 45B 토큰 규모로 끝냈어.

어떤 의미인가

서비스 단계에서 추론 비용은 거의 토큰 처리량으로 결정돼. 같은 GPU에서 토큰을 3배 이상 뽑을 수 있다면, 그만큼 동시 사용자 수나 응답 속도가 바뀐다는 뜻이야. 더 흥미로운 건 한 모델에 세 모드가 들어 있다는 점이야. 정밀도가 중요한 요약은 AR로, 코드처럼 형식이 정해진 출력은 diffusion으로 돌리는 식의 운영이 가능해져. 라이선스NVIDIA Nemotron Open Model License로 상용 사용을 허용해 둬서, 자체 호스팅 검토하는 팀이 바로 Hugging Face 카드에서 받아 SGLang으로 띄워볼 수 있어.

주의해서 볼 점

벤치마크 수치 대부분이 NVIDIA 자체 하드웨어에서 나왔어. GB200, DGX Spark는 대부분의 회사가 바로 못 만져보는 환경이라, 일반 A100이나 H100에서도 비슷한 비율이 나오는지는 따로 측정해야 해. 그리고 diffusion 모드는 코드나 JSON처럼 패턴이 정해진 출력에서 가장 강한데, 자유로운 산문 생성에서는 차이가 줄어. 도입을 검토한다면 자기네 워크로드 분포부터 보는 게 먼저야.