한 줄 정의
Tensor Core는 NVIDIA GPU 안에서 큰 행렬곱과 혼합 정밀도 계산을 빠르게 처리하는 전용 연산 블록이야. LLM 학습과 추론에서 자주 나오는 BF16, FP8, FP4 같은 정밀도 경로가 실제 처리량으로 이어지는지를 볼 때 이 이름이 붙어.
그래서 Tensor Core는 GPU 전체도 아니고 CUDA 전체도 아니야. CUDA는 NVIDIA GPU를 프로그래밍하고 라이브러리로 실행하는 경로에 가깝고, Tensor Core는 그 GPU 안에서 행렬 연산을 맡는 하드웨어 쪽 부품이야.
어떻게 작동하나
Transformer 계열 모델은 대부분 큰 행렬곱을 계속 반복해. 어텐션의 query·key·value projection, MLP 계층, MoE expert 계산처럼 같은 모양의 곱셈을 많이 밀어 넣는 구간이 많아. Tensor Core는 이런 연산을 FP16, BF16, FP8, FP4 같은 낮은 정밀도나 혼합 정밀도 경로로 처리해서 일반 CUDA core만 쓸 때보다 처리량을 높이는 쪽에 맞춰져 있어.
중요한 건 “낮은 비트 = 무조건 빠름”이 아니라는 점이야. NVIDIA Tensor Cores 페이지는 Blackwell 열의 지원 정밀도에 NVFP4, FP64, TF32, BF16, FP16, FP8/FP6, INT8을 함께 적어. 같은 Tensor Core라도 어떤 정밀도를 쓰느냐, 런타임이 어떤 커널을 고르느냐, 입력 텐서 모양이 맞느냐에 따라 실제 속도가 달라져.
Blackwell 세대에서는 이 연결이 더 노골적으로 보여. NVIDIA의 Blackwell 아키텍처 설명은 Blackwell GPU가 2080억 트랜지스터를 담고, 두 다이를 10TB/s 칩 간 연결로 묶는다고 적어. 그 안의 2세대 Transformer Engine은 custom Tensor Core 기술, TensorRT-LLM, NeMo 쪽 최적화를 함께 써서 LLM과 MoE 학습·추론을 가속하는 구조야.
왜 중요한가
Tensor Core가 중요한 이유는 AI 성능 주장의 단위가 “GPU가 있다”에서 끝나지 않게 만들기 때문이야. 같은 NVIDIA GPU라도 Tensor Core 세대, 지원 정밀도, CUDA 라이브러리, 메모리 대역폭이 맞아야 실제 tokens/sec와 p95 지연시간이 나와.
DGX B200 사양을 보면 이 감각이 빨라져. NVIDIA는 DGX B200을 8개 Blackwell GPU, 1,440GB 총 GPU VRAM, 64TB/s HBM3e 대역폭, 14.4TB/s NVLink aggregate bandwidth 시스템으로 적어. Tensor Core 성능도 한 줄이 아니라 FP4 Tensor Core 144 PFLOPS | 72 PFLOPS, FP8 Tensor Core 72 PFLOPS처럼 정밀도별로 나눠 적고, dense 성능은 sparse 수치의 절반이라는 주석을 붙여.
이런 숫자는 구매표가 아니라 비교표의 재료야. 내 서비스가 긴 컨텍스트 추론인지, 작은 배치의 대화형 응답인지, 대규모 학습인지에 따라 Tensor Core보다 HBM 대역폭, NVLink, KV 캐시, CPU 왕복이 더 큰 병목일 수 있어.
BF16·FP8·CUDA와 비교
BF16은 안정적인 16비트 기준선으로 자주 놓여. 값 범위를 넓게 유지하기 때문에 학습이나 추론에서 먼저 잡아 볼 만한 정밀도야. Tensor Core가 BF16을 지원한다는 말은 BF16 행렬 연산을 빠른 하드웨어 경로로 보낼 수 있다는 뜻이지, 품질 회귀 검사를 생략해도 된다는 뜻은 아니야.
FP8은 더 공격적인 선택이야. 저장·전송 단위가 더 작아져서 HBM 대역폭 병목에는 유리할 수 있지만, 스케일링과 amax 추적, 커널 지원, 정확도 회귀를 더 세게 봐야 해. Blackwell 문서가 FP4와 micro-tensor scaling을 강조해도, 실무에서는 BF16 기준선, FP8 실험, FP4 실험을 같은 입력 길이와 같은 평가셋에서 나란히 재는 편이 맞아.
CUDA는 이 하드웨어를 쓰게 해 주는 실행 경로야. PyTorch, TensorRT-LLM, vLLM, 커스텀 CUDA kernel이 Tensor Core를 실제로 타는지 확인하지 않으면, 스펙 표의 PFLOPS가 내 로그의 지연시간으로 바로 오지 않아. 특히 attention 계층은 입력 길이, 배치 크기, KV 캐시 정책에 따라 병목이 달라져.
실무에서는 Tensor Core가 보이면 아래 네 가지를 먼저 보면 돼.
- 어떤 GPU 세대인지: H100의 Hopper·SM90인지, Blackwell의 B200·SM100 계열인지 나눠.
- 어떤 정밀도인지: BF16 기준선인지, FP8인지, FP4/NVFP4인지 분리해.
- 어떤 런타임인지: TensorRT-LLM, vLLM, PyTorch, 직접 CUDA 커널 중 실제로 Tensor Core 경로를 타는지 확인해.
- 어떤 지표인지: 평균 처리량 하나보다 p50·p95 지연시간, tokens/sec, 정확도 회귀, NaN/Inf, VRAM 사용량을 같이 봐.
정리하면 Tensor Core는 AI 모델을 더 똑똑하게 만드는 이름이 아니라, 모델 계산을 GPU 안에서 어떤 정밀도와 커널로 처리하느냐를 가르는 이름이야. 이걸 분리해서 읽으면 “Blackwell이라서 빠르다”보다 “이 워크로드가 어떤 Tensor Core 경로를 실제로 타는가”라는 질문으로 바뀌어.