한 줄 정의
H100은 NVIDIA Hopper 아키텍처를 쓴 데이터센터용 Tensor Core GPU야. ChatGPT 같은 LLM 자체가 아니라, 큰 모델의 학습과 추론을 돌리는 서버 가속기라고 보면 돼.
AI 기사에서 H100이 자주 나오는 이유는 단순히 “비싼 GPU”라서가 아니야. 80GB급 GPU 메모리, FP8 Tensor Core, Hopper Transformer Engine, NVLink 같은 조건이 한꺼번에 묶여 있어서 긴 컨텍스트와 큰 MoE 모델을 설명할 때 기준선으로 쓰이기 좋아.
어떻게 작동하나
H100의 핵심은 큰 행렬곱을 빠르게 처리하는 Tensor Core야. LLM은 대부분 거대한 행렬 연산을 계속 반복하니까, H100은 FP16·BF16·FP8 같은 정밀도 경로를 하드웨어에서 빠르게 처리하는 쪽에 맞춰져 있어. NVIDIA는 H100 SXM 사양에서 80GB GPU 메모리, 3.35TB/s 메모리 대역폭, NVLink 900GB/s를 제시해.
Hopper 세대에서 특히 눈에 띄는 건 Transformer Engine이야. 이 경로는 레이어별 값 범위를 보면서 FP8과 16비트 정밀도를 섞어 쓰는 방식으로, 메모리 이동량과 Tensor Core 처리량 사이를 조절해. 그래서 H100 이야기가 나오면 “GPU가 몇 장인가”만 볼 게 아니라, 어떤 정밀도, 어떤 커널, 어떤 런타임이 실제로 그 경로를 타는지 같이 봐야 해.
왜 중요한가
H100은 LLM 인프라에서 비용과 가능 범위를 가르는 단위로 자주 쓰여. 70B급 오픈 모델, 1M 토큰급 KV 캐시, 대규모 MoE 서빙 같은 문맥에서는 GPU 메모리 24GB나 32GB짜리 카드와 80GB급 H100 사이의 차이가 바로 운영 가능 여부로 이어질 수 있어.
최근 DeepSeek DeepGEMM 업데이트처럼 MoE 커널을 다루는 글에서도 이 차이가 보여. PR #304는 dispatch, linear1/SwiGLU/linear2, combine을 하나의 mega-kernel로 묶고 NVLink 통신과 Tensor Core 계산을 겹치게 하는 방향을 직접 적어. 이건 모델 품질 이야기가 아니라 GPU가 놀지 않게 커널과 통신을 맞추는 인프라 이야기야.
그래서 H100이 언급된 벤치마크를 읽을 때는 숫자 하나보다 조건을 먼저 봐야 해. 같은 추론이라도 H100 SXM 8장, H100 PCIe 1장, H100 NVL 2장은 메모리 대역폭과 GPU 간 통신 조건이 달라. 논문이나 보도에서 “H100 기준”이라고만 적혀 있으면, 배치 크기와 입력 길이, 정밀도, 커널 이름까지 같이 확인해야 비교가 돼.
주의해서 볼 점
H100을 곧바로 “모든 LLM 작업의 정답”으로 읽으면 곤란해. NVIDIA 제품 표에도 H100 SXM과 H100 NVL의 숫자가 다르게 적혀 있어. H100 SXM은 80GB와 3.35TB/s, H100 NVL은 94GB와 3.9TB/s를 제시하지만 NVLink 대역폭 표기는 각각 900GB/s와 600GB/s로 갈라져. 폼팩터가 바뀌면 같은 H100 이름 안에서도 병목이 달라질 수 있어.
또 FP8 경로가 있다고 해서 품질이나 속도가 자동으로 좋아지는 건 아니야. BF16 기준선에서 정확도 회귀를 재고, 런타임이 실제 FP8 커널을 타는지 확인한 뒤에야 비용 계산을 할 수 있어. DeepSeek 저장소도 NVIDIA SM90 또는 SM100 GPU, CUDA Toolkit, PyTorch 조건을 따로 적어 두고 있어서, “H100급이면 다 된다”보다 “내 커널이 이 GPU와 소프트웨어 조합을 지원하나”가 먼저야.
마지막으로 Blackwell이나 SM100 최적화가 같이 보이면 H100과 분리해서 읽어야 해. H100은 Hopper·SM90 세대 기준이고, 새 라이브러리가 SM100 최적화를 붙였다고 해서 H100 서버의 처리량이 같은 폭으로 오르지는 않아. H100은 강한 기준선이지만, 도입 판단은 GPU 세대, 폼팩터, 정밀도, 네트워크, 런타임까지 같이 놓고 해야 해.