한 줄 정의
Blackwell은 NVIDIA가 Hopper 다음 세대로 내놓은 GPU 아키텍처야. LLM 학습과 추론에서 자주 보는 B200, GB200, RTX PRO Blackwell 같은 제품들이 이 계열에 들어가.
그래서 Blackwell을 보면 새 모델 이름으로 읽기보다 “NVIDIA GPU 세대가 바뀌었구나”라고 먼저 잡는 게 좋아. 그다음에 이게 DGX B200 같은 서버 이야기인지, RTX PRO 5000 같은 워크스테이션 이야기인지, 아니면 DeepGEMM처럼 SM100 CUDA 커널을 지원한다는 이야기인지 나눠 보면 덜 헷갈려.
어떻게 작동하나
Blackwell의 하드웨어 설명은 큰 칩 하나보다 “두 다이를 빠르게 묶은 GPU”에 가까워. NVIDIA 공식 설명 기준으로 Blackwell GPU는 2080억 트랜지스터를 담고, 두 개의 reticle-limited die를 10TB/s 칩 간 연결로 묶어 하나의 GPU처럼 다뤄.
AI 쪽에서 중요한 변화는 정밀도와 연결 구조야. Blackwell의 2세대 Transformer Engine은 micro-tensor scaling을 써서 FP4 같은 4비트 부동소수점 경로를 밀어. 여기서 FP8과 BF16이 사라지는 건 아니야. 운영에서는 BF16 기준선, FP8 실험, FP4 실험을 같은 평가셋과 같은 입력 길이에서 비교해야 해.
서버 단위로 보면 NVLink가 같이 붙어. NVIDIA는 5세대 NVLink가 최대 576 GPU까지 확장될 수 있고, 72 GPU NVLink domain에서 130TB/s GPU bandwidth를 낸다고 설명해. DGX B200 한 대만 봐도 8개의 Blackwell GPU, 1,440GB 총 GPU 메모리, 64TB/s HBM3e 대역폭, 14.4TB/s NVLink aggregate bandwidth가 한 묶음으로 나온다.
워크스테이션 쪽 Blackwell은 숫자가 다르게 보인다. RTX PRO 5000 Blackwell은 48GB 또는 72GB GDDR7 ECC 메모리, 1,344GB/s 메모리 대역폭, 300W 최대 전력으로 소개돼. 같은 Blackwell 이름이어도 DGX B200의 HBM3e/NVLink 서버와 RTX PRO 데스크톱 카드는 예산표가 완전히 달라.
왜 중요한가
Blackwell이 중요한 이유는 모델 이름을 바꾸지 않고도 처리량, 비용, 가능한 컨텍스트 길이가 달라질 수 있기 때문이야. CUDA 커널, Tensor Core 정밀도, GPU 간 통신, 메모리 대역폭이 같이 움직이면 같은 가중치라도 토큰 처리량과 p95 지연시간이 바뀔 수 있어.
DeepGEMM 사례가 이걸 잘 보여 줘. README는 요구 조건으로 NVIDIA SM90 또는 SM100 GPU를 적고, SM100에서는 SM90보다 더 넓은 GEMM 메모리 레이아웃을 지원한다고 설명해. 2026년 4월 업데이트의 Mega MoE는 dispatch, linear, SwiGLU, combine을 한 mega-kernel로 묶고 NVLink 통신과 Tensor Core 계산을 겹치게 해. 이건 모델 품질이 갑자기 좋아졌다는 말이 아니라, MoE 실행 경로를 GPU가 덜 기다리게 맞추는 인프라 변경이야.
반대로 Blackwell이라는 이름만으로 도입 판단을 끝내면 위험해. DGX B200의 1,440GB GPU 메모리와 RTX PRO 5000의 48GB 또는 72GB 메모리는 같은 문장에 놓고 비교할 숫자가 아니야. 한쪽은 서버 한 대의 총 GPU 메모리이고, 다른 쪽은 워크스테이션 카드 한 장의 메모리야.
실무에서는 Blackwell 지원이라는 문구를 보면 네 가지를 따로 확인하는 게 좋아.
- 어떤 제품인지: B200, GB200, RTX PRO, DGX Spark 중 무엇인지 먼저 봐.
- 어떤 런타임인지: TensorRT-LLM, vLLM, SGLang, PyTorch, 직접 CUDA 커널 중 어디를 타는지 확인해.
- 어떤 정밀도인지: BF16 기준선인지, FP8인지, FP4/NVFP4인지 분리해.
- 어떤 병목인지: VRAM 부족인지, HBM 대역폭인지, NVLink 통신인지, JIT 첫 호출 지연인지 나눠 재야 해.
주의해서 볼 점
첫째, Blackwell은 H100의 다른 이름이 아니야. H100은 Hopper·SM90 세대고, Blackwell은 B200·GB200·RTX PRO Blackwell처럼 그다음 세대 제품군에 붙는 이름이야. 새 라이브러리가 SM100 최적화를 붙였다고 해서 H100 서버가 같은 이득을 받는다고 보면 안 돼.
둘째, 공식 성능 문구는 조건표와 같이 읽어야 해. DGX B200 페이지는 이전 세대 대비 3배 학습 성능, 15배 추론 성능을 말하지만, 그래프 주석에는 입력 길이, 출력 길이, first token latency, token-to-token latency 같은 조건이 붙어. 내 서비스의 배치 크기와 입력 길이가 다르면 결과도 달라질 수 있어.
셋째, FP4나 FP8은 마법 버튼이 아니야. 정밀도를 낮추면 메모리 이동과 Tensor Core 처리량은 좋아질 수 있지만, 품질 회귀와 NaN/Inf, 포화값, 랭킹 뒤집힘을 같이 봐야 해. Blackwell이 FP4를 밀어도 안정성 기준선은 여전히 BF16이나 FP16에서 잡는 편이 좋아.
넷째, 보도와 추측을 분리해야 해. PANews와 Sina Tech는 DeepGEMM 업데이트가 Mega MoE와 FP4 Indexer를 포함하고, 모델 공개가 아니라 코드베이스 업데이트라고 설명해. 다만 어떤 훈련 카드가 쓰였는지 같은 해석은 공식 확인이 아니면 도입 판단에 넣지 않는 편이 안전해.
정리하면 Blackwell은 “더 빠른 NVIDIA GPU”라는 한 줄보다, 제품 폼팩터와 정밀도, CUDA 커널, 메모리, GPU 간 통신을 같이 보는 이름이야. 로컬 LLM 한 장짜리 실험이든, DGX B200 서버 도입이든, 같은 표에서 봐야 할 숫자는 p50·p95 지연시간, tokens/sec, 최대 메모리, 품질 회귀, 전력과 냉각이야.