이 용어는 어디까지 신뢰할 수 있나요?

첫 기준은 시스템 경계야. NVIDIA 사양표 기준 DGX B200 한 대에는 8개 Blackwell GPU, 1,440GB 총 GPU VRAM, 64TB/s HBM3e 대역폭, 14.4TB/s NVLink aggregate bandwidth가 들어가. 그래서 이 이름을 보면 “GPU가 빠르다”보다 “8 GPU 서버 한 대의 메모리·통신·전력 조건이구나”라고 먼저 잡는 편이 좋아.

어떻게 작동하나

DGX B200은 GPU만 있는 상자가 아니라 하드웨어와 운영 소프트웨어를 같이 묶은 DGX 플랫폼이야. 제품 페이지는 개발, 학습, 파인튜닝, 추론까지 이어지는 develop-to-deploy 파이프라인을 다루는 시스템으로 소개해. 소프트웨어 쪽에는 NVIDIA AI Enterprise, NVIDIA Mission Control, DGX OS/Ubuntu가 같이 적혀 있어.

하드웨어 숫자를 보면 일반 워크스테이션과 바로 갈라져. CPU는 2개의 Intel Xeon Platinum 8570이고 총 112코어야. 시스템 메모리는 2TB이고 4TB까지 구성할 수 있어. OS용 저장장치는 2x 1.9TB NVMe M.2, 내부 저장장치는 8x 3.84TB NVMe U.2로 적혀 있다. 장비 크기는 10RU, 최대 전력은 약 14.3kW라서 책상 밑 서버가 아니라 데이터센터 전원과 냉각을 전제로 보는 물건이야.

Tensor Core 성능도 정밀도별로 나눠 읽어야 해. DGX B200 표는 FP4 Tensor Core를 144 PFLOPS | 72 PFLOPS로 적고, FP8 Tensor Core를 72 PFLOPS로 적어. 주석을 보면 이 숫자는 sparse와 dense를 나눠 보여 주고, dense 성능은 sparse 표기의 절반이야. 그러니까 낮은 정밀도 처리량 표기와 BF16 기준선, FP8 실험을 같은 말처럼 읽으면 안 맞아.

왜 중요한가

DGX B200이 중요한 이유는 LLM 인프라 판단의 단위가 모델명에서 서버 한 대의 예산표로 내려오기 때문이야. 대형 LLM 학습, recommender, 챗봇, 긴 컨텍스트 추론은 모델 가중치만 보지 않아. KV cache, 배치 크기, HBM 대역폭, GPU 간 통신, 스토리지, 네트워크, 장애 대응까지 같이 붙는다.

예를 들어 “DGX B200에서 추론이 빠르다”는 말은 최소한 세 가지로 쪼개야 해. 첫째, 모델이 FP4·FP8·BF16 중 무엇으로 돌았는지 봐야 해. 둘째, 입력 길이와 출력 길이, first token latency, token-to-token latency가 무엇인지 봐야 해. 셋째, 한 대의 DGX B200 결과인지, DGX SuperPOD처럼 여러 대를 묶은 결과인지 확인해야 해.

NVIDIA는 DGX B200이 DGX H100 대비 3배 학습 성능과 15배 추론 성능을 낸다고 말해. 그런데 같은 페이지의 성능 그래프 주석에는 projected performance, 32,768 입력 sequence length, 1,028 출력 sequence length, 5s first token latency, 50ms token-to-token latency 같은 조건이 붙어 있어. 이 숫자는 비교표의 시작점이지, 내 서비스의 p95 지연시간 보증서가 아니야.

주의해서 볼 점

단일 GPU와 시스템을 섞지 마. DGX B200의 1,440GB는 8 GPU 합산 메모리야. “GPU 한 장이 1.4TB”라는 뜻이 아니고, NVIDIA GPU 제품군 전체의 일반 사양도 아니야.
H100과는 세대가 달라. H100은 Hopper 세대이고, DGX B200은 Blackwell 세대 DGX 시스템이야. 커널, 정밀도, NVLink 세대, 메모리 대역폭을 나눠 봐야 해.
GB200 NVL72와도 경계가 달라. Newsroom 자료는 GB200 NVL72를 36 Grace CPU와 72 Blackwell GPU가 들어간 랙 규모 시스템으로 설명해. DGX B200은 한 대 기준 8 GPU 서버야.
전력과 냉각이 성능표의 일부야. 최대 약 14.3kW, 10RU, 10-35°C 운영 온도 조건을 보면, 가격표보다 먼저 데이터센터 랙, 전원, 네트워크, 운영 인력이 맞는지 봐야 해.
낮은 정밀도는 검증을 줄여 주지 않아. FP4나 FP8 경로를 쓰면 처리량과 메모리 이동이 좋아질 수 있지만, BF16 기준선 대비 품질 회귀, NaN/Inf, 긴 컨텍스트에서의 attention 병목, KV cache 사용량을 따로 재야 해.

정리하면 DGX B200은 “Blackwell GPU가 들어간 빠른 서버”보다 더 구체적인 이름이야. 8 GPU DGX 시스템, 1,440GB 합산 GPU 메모리, 5세대 NVLink, DGX 소프트웨어 스택, 데이터센터 전력 조건이 한꺼번에 붙은 운영 단위로 보면 덜 헷갈려.

DGX B200(디지엑스 B200)

전체 AI 기술 맵에서의 위치

한 줄 정의

어떻게 작동하나

왜 중요한가

주의해서 볼 점

관련 용어