이 뉴스의 요약은 어떻게 만들어졌나요?

원문 링크를 바탕으로 핵심 요약을 만들고 fact-check 및 신호 점검을 거쳐 게재됩니다.

팩트체크 기준은 무엇인가요?

근거 링크, 수치 점검, 문맥 정합성, 최신성으로 조합해 상태를 표시해.

NVIDIA Nemotron-Labs Diffusion, 8B 모델로 Qwen3-8B 대비 토큰당 5.9배 처리

NVIDIA가 Nemotron-Labs Diffusion 계열을 5월 23일 공개했어. 3B·8B·14B 텍스트 모델과 8B VLM이 한 모델 안에서 autoregressive, diffusion, self-speculation 세 모드를 전환해. 8B는 GB200에서 850 tok/sec로 Qwen3-8B의 AR 253 tok/sec 대비 3.3배 빨라.

무슨 일이 일어났나

NVIDIA가 5월 23일 Nemotron-Labs Diffusion 계열을 공개했어. 텍스트 모델은 3B·8B·14B 세 사이즈, 여기에 8B 비전-언어 모델까지 같이 풀었어. 한 모델 안에서 autoregressive, diffusion, self-speculation 세 모드를 명령어 한 줄로 바꿔 쓸 수 있는 구조야. 8B 모델은 GB200 GPU에서 850 tok/sec를 기록했고, 같은 환경의 Qwen3-8B AR 추론 253 tok/sec와 비교하면 3.3배 빨라.

어떻게 작동하나

기존 autoregressive 모델이 토큰을 하나씩 차례로 만든다면, diffusion 모드는 32토큰 블록을 한꺼번에 잡고 여러 번 다듬어 나가는 방식이야. self-speculation 모드는 자기 자신을 드래프트 모델로 써서 양방향으로 후보를 만들고, AR 경로로 검증해. 핵심 수치 두 개를 보면 감이 와. 한 번의 forward pass에서 토큰을 5.9배 더 뽑아내고, accept length가 Eagle3 대비 3배야. 학습은 사전 학습 1.3T 토큰, 후속 학습 45B 토큰 규모로 끝냈어.

어떤 의미인가

서비스 단계에서 추론 비용은 거의 토큰 처리량으로 결정돼. 같은 GPU에서 토큰을 3배 이상 뽑을 수 있다면, 그만큼 동시 사용자 수나 응답 속도가 바뀐다는 뜻이야. 더 흥미로운 건 한 모델에 세 모드가 들어 있다는 점이야. 정밀도가 중요한 요약은 AR로, 코드처럼 형식이 정해진 출력은 diffusion으로 돌리는 식의 운영이 가능해져. 라이선스도 NVIDIA Nemotron Open Model License로 상용 사용을 허용해 둬서, 자체 호스팅 검토하는 팀이 바로 Hugging Face 카드에서 받아 SGLang으로 띄워볼 수 있어.

주의해서 볼 점

벤치마크 수치 대부분이 NVIDIA 자체 하드웨어에서 나왔어. GB200, DGX Spark는 대부분의 회사가 바로 못 만져보는 환경이라, 일반 A100이나 H100에서도 비슷한 비율이 나오는지는 따로 측정해야 해. 그리고 diffusion 모드는 코드나 JSON처럼 패턴이 정해진 출력에서 가장 강한데, 자유로운 산문 생성에서는 차이가 줄어. 도입을 검토한다면 자기네 워크로드 분포부터 보는 게 먼저야.

태그

#nvidia#nemotron#diffusion#language-model#inference

포맷 v3 가이드 news 3.4.0

팩트 체크

통과 · 2026-05-24 KST

검증 생성: AI + 편집 검토 · 2026-05-24 상태: 통과

통과 원문 대조

Hugging Face 공식 블로그 원문과 본문 수치, 모델 사이즈, 모드 구성을 직접 대조했어.

원문은 3B·8B·14B 텍스트 모델과 8B VLM 공개를 명시해.
8B 모델이 Qwen3-8B 대비 토큰당 5.9배라는 수치는 원문 본문에 직접 나와.
세 모드(AR, Diffusion, Self-Speculation) 구분은 원문 그대로 가져왔어.

통과 교차 검증 검증 출처 3

NVIDIA Research, MarkTechPost, 모델 카드 세 곳에서 같은 수치와 발표일이 보였어.

1차 출처 교차검증: NVIDIA Research 공식 publication 페이지와 Hugging Face 블로그가 동일한 'tri-mode' 정의와 발표 시점으로 일치해.
Hugging Face 모델 카드 다운로드 3,282, likes 77 같은 메트릭은 카드에서 직접 본 수치야.
MarkTechPost 보도와 NVIDIA Research 페이지에서 'Qwen3-8B 대비 6배' 표현을 따로 대조했어.

통과 수치 검증

5.9배, 3.3배, 850 tok/sec, 253 tok/sec, 3B/8B/14B는 모두 원문 표에서 확인했어.

Tokens Per Forward 5.9× vs Qwen3-8B — 모델 카드 표에 직접 적혀 있어.
GB200 850 tok/sec, AR 253 tok/sec, 3.3배 가속 — 모델 카드 표 그대로야.
DGX Spark 112 tok/sec vs AR 41.8 tok/sec — 모델 카드 표에서 확인했어.
사전 학습 1.3T 토큰, 후속 학습 45B 토큰 — Hugging Face 블로그에 그대로 나와.

통과 비판 검토

벤더 자체 벤치마크 의존도가 높다는 한계를 본문에 같이 적었어.

Causal evidence: GB200 850 tok/sec와 AR 253 tok/sec 비교에서 3.3배 가속이 나오는 인과 관계는 같은 모델 카드 표에서 직접 비교된 수치야.
Mechanism evidence: diffusion 모드는 32-token 블록을 한 번에 잡고 denoising으로 정제하는 구조라 한 forward pass 안에 토큰 처리량이 늘어나는 메커니즘이 모델 카드와 NVIDIA Research 페이퍼에 같이 적혀 있어.
비교 대상이 Qwen3-8B 한 모델로 한정돼 있어 일반화 한계가 있어.
측정 환경이 NVIDIA 자체 하드웨어(GB200, DGX Spark)라 독립 재현이 필요해.

독립 재현 벤치마크가 아직 적어, 실서비스 도입 전 SGLang 기준 자체 측정이 필요해.

출처: Towards Speed-of-Light Text Generation with Nemotron-Labs Diffusion Language Models , nvidia/Nemotron-Labs-Diffusion-14B Hugging Face card , NVIDIA Research — Nemotron-Labs-Diffusion paper