이 용어는 어디까지 신뢰할 수 있나요?

NVLink는 NVIDIA GPU 여러 장을 서로 직접 빠르게 연결하는 고대역폭 인터커넥트야. GPU가 많다는 말과는 달라. NVLink가 있으면 여러 GPU가 모델 조각, 활성값, gradient, MoE 토큰 이동 같은 데이터를 PCIe 경로보다 더 넓은 GPU-to-GPU 통로로 주고받을 수 있어.

그래서 AI 인프라 문서에서 NVLink가 보이면 “GPU를 몇 장 샀나”보다 “그 GPU들이 서로 얼마나 자주 데이터를 주고받아야 하나”를 먼저 봐야 해. 한 장짜리 추론 서버라면 덜 중요하고, 모델 병렬 학습이나 expert parallel처럼 GPU 사이 왕복이 잦은 구성에서는 핵심 비용으로 올라와.

어떻게 작동하나

NVLink는 GPU 사이를 묶는 scale-up 연결이고, NVLink Switch는 그 연결을 서버나 랙 안에서 더 많은 GPU로 넓히는 장치야. NVIDIA는 NVLink Switch가 여러 NVLink를 연결해서 랙 전체에서 all-to-all GPU 통신을 제공한다고 설명해. 이때 목적은 인터넷 네트워크처럼 바깥 요청을 받는 게 아니라, GPU끼리 중간 계산 결과를 빠르게 넘기는 데 있어.

세대별 숫자를 보면 감이 온다. NVIDIA의 현재 NVLink 표는 4세대 Hopper에서 GPU당 900GB/s, 5세대 Blackwell에서 1,800GB/s, 6세대 Rubin에서 3,600GB/s 대역폭을 적어. GPU당 최대 링크 수는 4세대와 5세대가 18, 6세대가 36이야. NVLink Switch 쪽 total aggregate bandwidth는 Hopper 7.2TB/s, Blackwell NVL72 130TB/s, Rubin NVL72 260TB/s로 올라가. 다만 Rubin 6세대 표에는 preliminary specification 주석이 붙어 있어서, 확정 도입 숫자처럼 읽으면 안 돼.

NVLink가 가장 잘 보이는 곳은 여러 GPU가 한 모델을 나눠 들고 있을 때야. tensor parallel이나 pipeline parallel에서는 층이나 행렬 조각 사이 결과가 움직이고, 전문가 혼합 모델에서는 토큰이 다른 expert가 있는 GPU로 보내졌다가 다시 합쳐져. 이 왕복이 느리면 GPU는 계산할 일이 있어도 기다린다. NVLink와 NVSwitch는 그 기다림을 줄이는 쪽의 하드웨어야.

왜 중요한가

큰 LLM에서는 계산량만큼 통신량도 문제가 돼. GPU 한 장의 VRAM에 모델이 다 안 들어가거나, batch를 키우려고 여러 GPU를 묶거나, MoE expert를 여러 장에 나누면 GPU끼리 계속 데이터를 주고받아야 해. 이때 NVLink가 없으면 PCIe나 외부 네트워크 경로가 더 빨리 병목으로 드러날 수 있어.

DeepGEMM의 2026년 4월 업데이트가 이걸 잘 보여 줘. PANews와 Sina Tech는 Mega MoE가 dispatch, linear1/SwiGLU/linear2, combine을 하나의 mega-kernel로 묶고, NVLink 통신과 Tensor Core 계산을 겹치게 한다고 설명했어. 이건 새 모델이 더 똑똑해졌다는 말이 아니라, MoE 실행 중 “데이터 보내느라 기다리는 시간”을 계산 시간과 포개려는 커널·통신 최적화야.

실무에서는 NVLink를 도입 키워드가 아니라 측정 항목으로 봐야 해. 같은 CUDA 서버라도 아래 숫자를 같이 보면 판단이 덜 흔들려.

p50·p95 지연시간
tokens/sec
GPU utilization
GPU 간 통신 시간
peak memory와 HBM 대역폭

이 표에서 GPU utilization은 낮고 GPU 간 통신 시간이 높다면 NVLink나 NVSwitch 토폴로지가 중요해질 수 있어. 반대로 병목이 모델 로딩, CPU 전처리, 토크나이저, 외부 API 대기라면 NVLink가 있어도 사용자는 별 차이를 못 느낄 수 있어.

주의해서 볼 점

첫째, NVLink는 CUDA와 같은 말이 아니야. CUDA는 NVIDIA GPU에서 커널을 실행하는 소프트웨어 플랫폼이고, NVLink는 GPU 사이를 잇는 물리·시스템 연결이야. CUDA 커널이 좋아도 GPU 사이 데이터 이동이 많으면 NVLink 쪽 병목이 남을 수 있고, 반대로 NVLink가 있어도 커널이 나쁘면 계산 자체가 느릴 수 있어.

둘째, NVLink는 PCIe나 이더넷을 전부 대체하는 말도 아니야. PCIe는 CPU와 장치, 장치와 장치가 서버 안에서 연결되는 기본 경로에 가깝고, 이더넷이나 InfiniBand는 서버 밖 scale-out 네트워크에 더 가깝다. NVLink는 그중 GPU 사이 scale-up 통신을 강하게 만든 쪽이야. 그래서 “NVLink가 있다”는 문구는 랙 내부 GPU 토폴로지를 봐야 한다는 신호로 읽는 게 좋아.

셋째, 세대 숫자를 섞으면 바로 틀어져. Hopper 4세대의 900GB/s, Blackwell 5세대의 1,800GB/s, Rubin 6세대의 3,600GB/s는 같은 NVLink 이름 아래 있지만 같은 제품 조건이 아니야. 특히 6세대 Rubin 표는 preliminary라서, 2026년 5월 기준 도입 판단에서는 Blackwell 5세대와 구분해서 적어야 해.

넷째, DeepGEMM 같은 커널 라이브러리 사례를 전체 서비스 성능 보장으로 옮기면 안 돼. Mega MoE가 NVLink 통신과 계산을 겹치게 해도, 내 모델의 expert 배치, 배치 크기, 입력 길이, 런타임 collective 구현이 다르면 결과가 달라져. 작은 A/B에서 p95와 tokens/sec를 먼저 재는 편이 안전해.

이 항목을 참조하는 위키

포맷 v3 가이드 wiki 3.2.0

팩트 체크

통과 · 2026-05-07 KST

검증 생성: AI + 편집 검토 · 2026-05-07 상태: 통과

통과 원문 대조 검증 출처 5

NVLink를 일반 네트워크나 GPU 이름이 아니라, NVIDIA GPU 사이의 scale-up 통신 경로로 설명한 축을 공식 자료와 맞췄어.

독자 문제 대조: NVLink를 GPU 수량, CUDA, 이더넷, PCIe와 섞어 읽으면 판단이 틀어져서 첫 정의를 GPU-to-GPU 인터커넥트로 고정했어.
NVIDIA NVLink 페이지는 NVLink와 NVLink Switch를 AI 학습·추론·랙 단위 GPU 워크로드를 위한 고대역폭 GPU-to-GPU scale-up networking fabric으로 설명해.
같은 페이지는 NVLink Switch가 여러 NVLink를 연결해 랙 전체에서 all-to-all GPU 통신을 제공한다고 적어. 본문에서 NVSwitch를 NVLink를 랙 단위로 넓히는 장치로 둔 이유가 여기와 맞아.
NVLink-C2C 페이지는 NVLink 기술이 chip-to-chip coherent interconnect로도 확장된다고 설명하지만, 본문 핵심은 데이터센터 GPU-to-GPU NVLink와 NVSwitch에 묶었어.
DeepGEMM README와 보도는 Mega MoE가 NVLink 통신과 Tensor Core 계산을 겹치게 한다고 설명해. 본문은 이걸 모델 품질 변화가 아니라 통신 대기 감소 사례로만 썼어.

통과 교차 검증 검증 출처 5

NVIDIA 공식 기술 페이지와 DeepGEMM 저장소·보도를 나눠 보고, NVLink 자체 설명과 특정 커널 업데이트 사례를 섞지 않게 확인했어.

비교 기준: NVLink 자체 정의, NVLink Switch의 랙 단위 all-to-all 연결, NVLink-C2C의 chip-to-chip 범위, DeepGEMM Mega MoE의 통신 겹치기 사례를 따로 봤어.
NVIDIA NVLink 페이지는 4세대 Hopper, 5세대 Blackwell, 6세대 Rubin 표를 한곳에 제시하고, Rubin 값에는 임시 사양 주석을 붙여. 그래서 본문도 세대 숫자를 고정 불변 스펙처럼 쓰지 않았어.
NVLink-C2C 페이지는 Grace CPU와 Blackwell GPU 같은 chiplet·superchip 연결을 설명해. 이건 PCIe 대체 일반론이 아니라 NVIDIA 쪽 고대역폭 coherent 연결 범위라는 보조 근거야.
PANews는 2026년 4월 16일 DeepGEMM 업데이트가 dispatch, linear1/SwiGLU/linear2, combine을 mega-kernel로 묶고 NVLink communication과 tensor core computation overlap을 최적화한다고 전해.
Sina Tech는 같은 업데이트를 모델 공개가 아니라 DeepGEMM 코드베이스 업데이트로 설명해. 그래서 본문도 NVLink 최적화를 새 DeepSeek 모델 출시 신호로 읽지 않게 분리했어.

통과 수치 검증 검증 출처 4

본문 숫자는 NVIDIA 공식 NVLink 표와 DeepGEMM 요구 조건·보도 제한 조건에서 직접 확인되는 값만 남겼어.

NVIDIA NVLink 표는 세대별 GPU당 대역폭을 4세대 Hopper `900GB/s`, 5세대 Blackwell `1,800GB/s`, 6세대 Rubin `3,600GB/s`로 적어.
같은 표는 GPU당 최대 링크 수를 4세대 `18`, 5세대 `18`, 6세대 `36`으로 적고, NVLink Switch total aggregate bandwidth를 Hopper `7.2TB/s`, Blackwell NVL72 `130TB/s`, Rubin NVL72 `260TB/s`로 적어.
NVIDIA NVLink 페이지는 Vera Rubin NVL72가 `72`개 GPU all-to-all topology와 `260TB/s` GPU bandwidth를 제공한다고 설명하지만, 이 6세대 표는 아직 확정 전 주석이 붙어 있어.
DeepGEMM README는 요구 조건으로 NVIDIA `SM90` 또는 `SM100` GPU, CUDA Toolkit `12.9+` for SM100, PyTorch `2.1+`, CUTLASS `4.0+`를 적어. PANews는 Mega MoE가 현재 FP8 x FP4 MoE, `EP≤8`, PyTorch `2.9+` 조건이라고 전해.
PANews와 Sina Tech가 말한 2026년 4월 업데이트는 DeepGEMM 개발 업데이트이고 내부 모델 릴리스가 아니야. 본문도 날짜와 범위를 그 수준으로 제한했어.

통과 비판 검토 검증 출처 5

NVLink를 많을수록 무조건 빠른 장치처럼 과장하지 않도록, 병목 위치와 토폴로지 조건을 따로 걸렀어.

NVLink가 있어도 병목이 단일 GPU HBM, CPU 전처리, 디스크 로딩, 토크나이저, 네트워크 API 대기라면 체감 이득이 작을 수 있어.
PCIe만 있는 서버와 NVLink 서버의 차이는 GPU 간 통신이 실제로 자주 일어나는 모델 병렬, expert parallel, large-batch 학습에서 커져. 단일 GPU 추론에는 NVLink가 거의 판단 기준이 아니야.
NVSwitch가 있다고 모든 GPU 쌍이 항상 같은 비용으로 모든 workload를 처리한다는 뜻은 아니야. batch 크기, shard 방식, expert 배치, 런타임 collective 구현을 같이 봐야 해.
DeepGEMM의 Mega MoE 설명은 GPU 간 전송을 계산 시간과 포개는 사례이지 전체 서비스 지연시간 보장이 아니야. 자체 p50·p95, tokens/sec, GPU utilization으로 다시 재야 해.
Rubin 6세대 수치는 NVIDIA 페이지에 잠정 표기라고 붙어 있으므로, 도입 문서에서는 Blackwell 5세대 확정 스펙과 구분해서 읽는 편이 안전해.

이 페이지의 결론은 NVLink를 구매 키워드로 외우자는 쪽이 아니라, multi-GPU 통신이 내 병목인지 먼저 재고 세대·토폴로지·런타임을 같이 보자는 쪽이야.

출처: NVIDIA NVLink and NVLink Switch , NVIDIA NVLink-C2C , GitHub deepseek-ai/DeepGEMM , PANews — DeepGEMM major updates , Sina Tech — DeepGEMM 업데이트

NVLink(엔비디아 GPU 인터커넥트)

전체 AI 기술 맵에서의 위치

한 줄 정의

어떻게 작동하나

왜 중요한가

주의해서 볼 점

관련 용어

이 항목을 참조하는 위키