한 줄 정의

NVIDIA GPU는 엔비디아가 만드는 GPU 제품군을 묶어 부르는 말이야. 화면을 그리는 그래픽카드라는 뜻으로도 쓰이지만, AI 문맥에서는 모델을 학습하고 추론할 때 계산을 맡는 칩 계열이라는 뜻으로 더 자주 나와.

AI 기사에서 “NVIDIA GPU”라고 적혀 있으면, 대개 카드 한 장 이름보다 NVIDIA 쪽 가속기 계열 전체를 묶어 부르는 경우가 많아. 이때는 CUDA로 짜인 소프트웨어와 Tensor Core, HBM 메모리, NVLink 같은 연결 구조까지 붙은 실행 기반으로 읽는 편이 맞아.

그래서 NVIDIA와 NVIDIA GPU는 비슷해 보여도 같은 말은 아니야. 전자는 회사고, 후자는 그 회사가 내놓는 GPU 제품군과 실행 기반이야. 또 H100은 NVIDIA GPU 안에 들어가는 특정 서버 GPU고, VRAM은 그 GPU가 가진 메모리 예산을 가리키는 한 항목이야. FP8BF16도 GPU 이름이 아니라 그 위에서 쓰는 정밀도 형식이고.

어떻게 작동하나

작동 방식의 중심에는 CUDA가 있어. CUDA Programming Guide 기준으로 CPU는 host, GPU는 device로 불리고, GPU에서 돌아가는 함수는 kernel로 실행돼. 같은 계산을 thread block과 grid로 잘게 나눠 병렬로 밀어 넣는 구조라서, 추론학습처럼 큰 행렬 연산을 많이 반복하는 작업에 강해.

여기에 NVIDIA GPU만의 차별점이 붙어. H100 제품 페이지는 H100 SXM이 80GB GPU 메모리3.35TB/s 메모리 대역폭, 900GB/s NVLink를 가진다고 적어. 최근 Blackwell 아키텍처 페이지는 GPU 안에서 두 다이를 10TB/s 칩 간 연결로 묶고, 2080억 트랜지스터와 2세대 Transformer Engine을 강조해. 즉 NVIDIA GPU는 코어 수만 보는 부품이 아니라, 메모리와 정밀도, GPU 간 통신까지 합쳐서 성격이 정해지는 계산 장치야.

이 말이 실제로 얼마나 넓게 쓰이는지는 최근 모델 카드 하나만 봐도 드러나. Nemotron 3 Nano Omni 카드는 지원 하드웨어로 A100 80GB, H100, H200, B200, L40S, RTX 5090, Jetson Thor를 함께 적고 있어. 여기서 이 예시가 뒷받침하는 건 딱 하나야. “NVIDIA GPU”라는 말이 데이터센터 서버, 워크스테이션, 엣지 장치를 한 묶음으로 부를 때가 있다는 점이지, 그 장치들이 같은 처리량을 낸다는 뜻은 아니야.

왜 중요한가

AI 기사에서 NVIDIA GPU라는 말이 나오면, 그건 보통 모델 이름보다 운영 조건을 말하는 경우가 많아. 예를 들어 멀티모달 모델을 학습하거나 서빙할 때는 단순히 GPU가 있느냐보다 어떤 세대인지, VRAM이 얼마나 되는지, FP8이나 BF16 경로를 타는지, NVLink가 필요한지까지 같이 봐야 해. 같은 모델도 이 조건이 바뀌면 처리량과 비용이 꽤 달라져.

서버 단위로 올라가면 더 분명해져. DGX B200 페이지는 8개의 Blackwell GPU, 1,440GB 총 GPU 메모리, 64TB/s HBM3e 대역폭, 14.4TB/s NVLink aggregate bandwidth를 제시해. 여기서 NVIDIA GPU는 카드 한 장이 아니라 서버 한 대, 나아가 데이터센터 설계의 기본 단위가 돼. 그래서 “NVIDIA GPU를 쓴다”는 문장은 로컬 PC 실험과 AI 팩토리 구축 사이를 전부 가로지를 수 있어.

최근 공개된 멀티모달 모델 카드들도 이 감각을 보강해. 해당 카드는 최대 256k 토큰 컨텍스트와 최대 1시간 오디오 입력을 적고, 지원 하드웨어 범위를 데이터센터부터 엣지까지 넓게 잡아. 이런 글을 읽을 때 중요한 건 모델 이름보다 “어느 NVIDIA GPU 계열에서, 어떤 입력 길이와 정밀도로 굴리려는가”야.

주의해서 볼 점

첫째, NVIDIA GPU를 성능 점수처럼 읽으면 안 돼. H100과 RTX 5090과 Jetson Thor는 다 NVIDIA GPU지만 쓰는 자리와 예산표가 완전히 달라. 데이터센터용 H10080GB 메모리NVLink를 전제로 한 글을 데스크톱 GPU 기사처럼 읽으면 판단이 바로 꼬여.

둘째, 회사 이름과 제품군 이름을 섞지 않는 게 좋아. NVIDIA 실적 기사, Blackwell 발표, CUDA 업데이트, Nemotron 모델 공개는 다 같은 회사에서 나오지만, 각 문서는 회사 전략, GPU 아키텍처, 개발 스택, 모델 배포를 각각 다른 층에서 말해. “NVIDIA가 강하다”는 말보다 “어느 GPU 세대가 어떤 워크로드를 밀어 주는가”가 더 쓸모 있는 질문이야.

셋째, 모델 카드의 지원 하드웨어 목록은 호환 범위일 뿐이야. Nemotron 3 Nano Omni 카드에 RTX 5090과 Jetson Thor가 같이 적혀 있어도, 그게 곧바로 같은 처리량이나 같은 컨텍스트 길이를 보장하는 건 아니야. 실제로는 메모리, 냉각, 전력, runtime, 입력 길이 제한이 전부 다르게 걸려.

그래서 NVIDIA GPU라는 표현을 보면 아래 네 가지를 먼저 확인하면 돼.

  • 어떤 세대인지: Hopper인지 Blackwell인지부터 갈라야 해.
  • 어디서 쓰는지: 데이터센터 서버인지, 로컬 워크스테이션인지, 엣지 장치인지 먼저 봐.
  • 메모리와 인터커넥트가 어느 급인지: VRAM 크기, HBM 대역폭, NVLink 유무가 실제 체감 성능을 크게 바꿔.
  • CUDA 기반 소프트웨어가 그 장치를 제대로 타는지: 같은 NVIDIA GPU라도 런타임과 커널 지원 경로가 다를 수 있어.