한 줄 정의

NVLink는 NVIDIA GPU 여러 장을 서로 직접 빠르게 연결하는 고대역폭 인터커넥트야. GPU가 많다는 말과는 달라. NVLink가 있으면 여러 GPU가 모델 조각, 활성값, gradient, MoE 토큰 이동 같은 데이터를 PCIe 경로보다 더 넓은 GPU-to-GPU 통로로 주고받을 수 있어.

그래서 AI 인프라 문서에서 NVLink가 보이면 “GPU를 몇 장 샀나”보다 “그 GPU들이 서로 얼마나 자주 데이터를 주고받아야 하나”를 먼저 봐야 해. 한 장짜리 추론 서버라면 덜 중요하고, 모델 병렬 학습이나 expert parallel처럼 GPU 사이 왕복이 잦은 구성에서는 핵심 비용으로 올라와.

어떻게 작동하나

NVLink는 GPU 사이를 묶는 scale-up 연결이고, NVLink Switch는 그 연결을 서버나 랙 안에서 더 많은 GPU로 넓히는 장치야. NVIDIA는 NVLink Switch가 여러 NVLink를 연결해서 랙 전체에서 all-to-all GPU 통신을 제공한다고 설명해. 이때 목적은 인터넷 네트워크처럼 바깥 요청을 받는 게 아니라, GPU끼리 중간 계산 결과를 빠르게 넘기는 데 있어.

세대별 숫자를 보면 감이 온다. NVIDIA의 현재 NVLink 표는 4세대 Hopper에서 GPU당 900GB/s, 5세대 Blackwell에서 1,800GB/s, 6세대 Rubin에서 3,600GB/s 대역폭을 적어. GPU당 최대 링크 수는 4세대와 5세대가 18, 6세대가 36이야. NVLink Switch 쪽 total aggregate bandwidth는 Hopper 7.2TB/s, Blackwell NVL72 130TB/s, Rubin NVL72 260TB/s로 올라가. 다만 Rubin 6세대 표에는 preliminary specification 주석이 붙어 있어서, 확정 도입 숫자처럼 읽으면 안 돼.

NVLink가 가장 잘 보이는 곳은 여러 GPU가 한 모델을 나눠 들고 있을 때야. tensor parallel이나 pipeline parallel에서는 층이나 행렬 조각 사이 결과가 움직이고, 전문가 혼합 모델에서는 토큰이 다른 expert가 있는 GPU로 보내졌다가 다시 합쳐져. 이 왕복이 느리면 GPU는 계산할 일이 있어도 기다린다. NVLink와 NVSwitch는 그 기다림을 줄이는 쪽의 하드웨어야.

왜 중요한가

LLM에서는 계산량만큼 통신량도 문제가 돼. GPU 한 장의 VRAM에 모델이 다 안 들어가거나, batch를 키우려고 여러 GPU를 묶거나, MoE expert를 여러 장에 나누면 GPU끼리 계속 데이터를 주고받아야 해. 이때 NVLink가 없으면 PCIe나 외부 네트워크 경로가 더 빨리 병목으로 드러날 수 있어.

DeepGEMM의 2026년 4월 업데이트가 이걸 잘 보여 줘. PANews와 Sina Tech는 Mega MoE가 dispatch, linear1/SwiGLU/linear2, combine을 하나의 mega-kernel로 묶고, NVLink 통신과 Tensor Core 계산을 겹치게 한다고 설명했어. 이건 새 모델이 더 똑똑해졌다는 말이 아니라, MoE 실행 중 “데이터 보내느라 기다리는 시간”을 계산 시간과 포개려는 커널·통신 최적화야.

실무에서는 NVLink를 도입 키워드가 아니라 측정 항목으로 봐야 해. 같은 CUDA 서버라도 아래 숫자를 같이 보면 판단이 덜 흔들려.

  • p50·p95 지연시간
  • tokens/sec
  • GPU utilization
  • GPU 간 통신 시간
  • peak memory와 HBM 대역폭

이 표에서 GPU utilization은 낮고 GPU 간 통신 시간이 높다면 NVLink나 NVSwitch 토폴로지가 중요해질 수 있어. 반대로 병목이 모델 로딩, CPU 전처리, 토크나이저, 외부 API 대기라면 NVLink가 있어도 사용자는 별 차이를 못 느낄 수 있어.

주의해서 볼 점

첫째, NVLink는 CUDA와 같은 말이 아니야. CUDANVIDIA GPU에서 커널을 실행하는 소프트웨어 플랫폼이고, NVLink는 GPU 사이를 잇는 물리·시스템 연결이야. CUDA 커널이 좋아도 GPU 사이 데이터 이동이 많으면 NVLink 쪽 병목이 남을 수 있고, 반대로 NVLink가 있어도 커널이 나쁘면 계산 자체가 느릴 수 있어.

둘째, NVLink는 PCIe나 이더넷을 전부 대체하는 말도 아니야. PCIe는 CPU와 장치, 장치와 장치가 서버 안에서 연결되는 기본 경로에 가깝고, 이더넷이나 InfiniBand는 서버 밖 scale-out 네트워크에 더 가깝다. NVLink는 그중 GPU 사이 scale-up 통신을 강하게 만든 쪽이야. 그래서 “NVLink가 있다”는 문구는 랙 내부 GPU 토폴로지를 봐야 한다는 신호로 읽는 게 좋아.

셋째, 세대 숫자를 섞으면 바로 틀어져. Hopper 4세대의 900GB/s, Blackwell 5세대의 1,800GB/s, Rubin 6세대의 3,600GB/s는 같은 NVLink 이름 아래 있지만 같은 제품 조건이 아니야. 특히 6세대 Rubin 표는 preliminary라서, 2026년 5월 기준 도입 판단에서는 Blackwell 5세대와 구분해서 적어야 해.

넷째, DeepGEMM 같은 커널 라이브러리 사례를 전체 서비스 성능 보장으로 옮기면 안 돼. Mega MoE가 NVLink 통신과 계산을 겹치게 해도, 내 모델의 expert 배치, 배치 크기, 입력 길이, 런타임 collective 구현이 다르면 결과가 달라져. 작은 A/B에서 p95와 tokens/sec를 먼저 재는 편이 안전해.