이 용어는 어디까지 신뢰할 수 있나요?

DGX Spark는 NVIDIA가 GB10 Grace Blackwell 슈퍼칩을 데스크톱 크기에 넣은 개인용 AI 컴퓨터야. 이름에 DGX가 붙지만, DGX B200 같은 랙 서버라기보다 책상 위에서 로컬 LLM 추론, 파인튜닝 실험, 에이전트 프로토타입을 돌려 보는 장비로 읽는 편이 맞아.

핵심은 128GB LPDDR5x 통합 메모리와 최대 1PFLOP FP4 표기야. NVIDIA 사양표를 보면 20코어 Arm CPU와 Blackwell 세대 GPU가 같은 상자 안에서 움직이고, 저장장치는 문서 위치에 따라 1TB 또는 4TB NVMe M.2 구성으로 적혀 있어. 제품 페이지는 4TB 구성을 앞세우고, 하드웨어 가이드는 1TB와 4TB 구성을 함께 다뤄. 책상 위에 놓는 장비라서 크기는 150mm x 150mm x 50.5mm, 무게는 1.2kg으로 잡혀 있어.

어떻게 작동하나

DGX Spark는 외장 NVIDIA GPU 한 장을 PC에 꽂은 구조가 아니라, CPU와 GPU가 같은 시스템 메모리 풀을 보는 UMA 장비에 가까워. 그래서 “128GB가 있다”는 말은 일반 워크스테이션의 128GB 전용 VRAM처럼 읽으면 안 돼. NVIDIA의 알려진 이슈 문서도 iGPU 플랫폼에서는 nvidia-smi가 Memory-Usage를 전용 프레임버퍼처럼 보여 주지 않을 수 있고, cudaMemGetInfo 값도 스왑으로 회수 가능한 DRAM까지 바로 반영하지 않는다고 설명해.

소프트웨어 쪽에서는 DGX OS 위에 CUDA, cuDNN, Docker 컨테이너, NVIDIA Container Runtime을 올리는 흐름을 전제로 해. 실제 작업에서는 PyTorch나 vLLM 컨테이너를 띄우고, 모델 가중치와 KV cache, 배치 크기, 정밀도를 맞춰 본다. Blackwell은 칩 세대 이름이고, CUDA는 실행 경로이며, FP4와 BF16은 정밀도 선택지야. 반면 DGX Spark는 이 조건들을 한 번에 묶은 완제품 장비라서, 관련 용어와 비교할 때 층위가 달라.

왜 중요한가

DGX Spark가 눈에 띄는 이유는 “개발자 책상 위에서 70B 안팎의 모델을 손대 보고, 더 큰 모델 추론도 실험해 볼 수 있는 NVIDIA 기준선”을 만들기 때문이야. 클라우드 GPU를 빌리기 전 단계에서 데이터가 밖으로 나가도 되는지, BF16로 돌릴지 FP4나 NVFP4 양자화 경로를 볼지, CUDA 컨테이너가 실제로 잘 맞는지 먼저 확인할 수 있어.

예를 들어 30B-A3B 멀티모달 모델은 텍스트, 이미지, 영상, 음성을 입력으로 받고, Hugging Face에는 BF16·FP8·NVFP4 체크포인트가 올라와 있어. 모델 카드 기준 BF16 크기는 61.5GB, FP8은 32.8GB, NVFP4는 20.9GB야. 이런 모델을 로컬에서 직접 올릴 때 DGX Spark는 “모델이 열린 것”과 “내 장비에서 쓸 만하게 도는 것” 사이를 확인하는 장비가 돼.

주의해서 볼 점

처리량 숫자: 최대 1PFLOP FP4는 희소성을 쓴 이론 FP4 처리량 표기야. BF16 모델을 그대로 올렸을 때의 초당 토큰 수나 p95 지연시간을 보장하지 않아. 추론 결과를 볼 때는 FP8·FP4·BF16 중 무엇으로 돌렸는지 먼저 봐야 해.
서버와의 차이: DGX Spark는 클라우드 DGX 서버를 줄인 이름표가 아니야. 전원은 240W 어댑터이고 GB10 TDP는 140W로 잡혀 있어. 전용 HBM을 여러 장 묶은 데이터센터 서버와 같은 메모리 대역폭이나 GPU 간 통신을 기대하면 판단이 바로 어긋나.
메모리 표시: 통합 메모리는 장점이지만 운영 지표를 읽기 까다롭게 만들어. nvidia-smi 한 줄, Docker 컨테이너 안의 cudaMemGetInfo, 실제 프로세스 RSS, 스왑 설정이 서로 다르게 보일 수 있어.
벤치마크 조건: DGX Spark 결과를 볼 때는 모델 이름보다 정밀도, 최대 컨텍스트, 배치 크기, 런타임 버전, 전원 어댑터, 냉각 조건을 먼저 봐야 해. 이 조건이 빠진 초당 토큰 수는 비교표에 올리기 어려워.