이 용어는 어디까지 신뢰할 수 있나요?

Transformer 계열 모델은 대부분 큰 행렬곱을 계속 반복해. 어텐션의 query·key·value projection, MLP 계층, MoE expert 계산처럼 같은 모양의 곱셈을 많이 밀어 넣는 구간이 많아. Tensor Core는 이런 연산을 FP16, BF16, FP8, FP4 같은 낮은 정밀도나 혼합 정밀도 경로로 처리해서 일반 CUDA core만 쓸 때보다 처리량을 높이는 쪽에 맞춰져 있어.

중요한 건 “낮은 비트 = 무조건 빠름”이 아니라는 점이야. NVIDIA Tensor Cores 페이지는 Blackwell 열의 지원 정밀도에 NVFP4, FP64, TF32, BF16, FP16, FP8/FP6, INT8을 함께 적어. 같은 Tensor Core라도 어떤 정밀도를 쓰느냐, 런타임이 어떤 커널을 고르느냐, 입력 텐서 모양이 맞느냐에 따라 실제 속도가 달라져.

Blackwell 세대에서는 이 연결이 더 노골적으로 보여. NVIDIA의 Blackwell 아키텍처 설명은 Blackwell GPU가 2080억 트랜지스터를 담고, 두 다이를 10TB/s 칩 간 연결로 묶는다고 적어. 그 안의 2세대 Transformer Engine은 custom Tensor Core 기술, TensorRT-LLM, NeMo 쪽 최적화를 함께 써서 LLM과 MoE 학습·추론을 가속하는 구조야.

왜 중요한가

Tensor Core가 중요한 이유는 AI 성능 주장의 단위가 “GPU가 있다”에서 끝나지 않게 만들기 때문이야. 같은 NVIDIA GPU라도 Tensor Core 세대, 지원 정밀도, CUDA 라이브러리, 메모리 대역폭이 맞아야 실제 tokens/sec와 p95 지연시간이 나와.

DGX B200 사양을 보면 이 감각이 빨라져. NVIDIA는 DGX B200을 8개 Blackwell GPU, 1,440GB 총 GPU VRAM, 64TB/s HBM3e 대역폭, 14.4TB/s NVLink aggregate bandwidth 시스템으로 적어. Tensor Core 성능도 한 줄이 아니라 FP4 Tensor Core 144 PFLOPS | 72 PFLOPS, FP8 Tensor Core 72 PFLOPS처럼 정밀도별로 나눠 적고, dense 성능은 sparse 수치의 절반이라는 주석을 붙여.

이런 숫자는 구매표가 아니라 비교표의 재료야. 내 서비스가 긴 컨텍스트 추론인지, 작은 배치의 대화형 응답인지, 대규모 학습인지에 따라 Tensor Core보다 HBM 대역폭, NVLink, KV 캐시, CPU 왕복이 더 큰 병목일 수 있어.

BF16·FP8·CUDA와 비교

BF16은 안정적인 16비트 기준선으로 자주 놓여. 값 범위를 넓게 유지하기 때문에 학습이나 추론에서 먼저 잡아 볼 만한 정밀도야. Tensor Core가 BF16을 지원한다는 말은 BF16 행렬 연산을 빠른 하드웨어 경로로 보낼 수 있다는 뜻이지, 품질 회귀 검사를 생략해도 된다는 뜻은 아니야.

FP8은 더 공격적인 선택이야. 저장·전송 단위가 더 작아져서 HBM 대역폭 병목에는 유리할 수 있지만, 스케일링과 amax 추적, 커널 지원, 정확도 회귀를 더 세게 봐야 해. Blackwell 문서가 FP4와 micro-tensor scaling을 강조해도, 실무에서는 BF16 기준선, FP8 실험, FP4 실험을 같은 입력 길이와 같은 평가셋에서 나란히 재는 편이 맞아.

CUDA는 이 하드웨어를 쓰게 해 주는 실행 경로야. PyTorch, TensorRT-LLM, vLLM, 커스텀 CUDA kernel이 Tensor Core를 실제로 타는지 확인하지 않으면, 스펙 표의 PFLOPS가 내 로그의 지연시간으로 바로 오지 않아. 특히 attention 계층은 입력 길이, 배치 크기, KV 캐시 정책에 따라 병목이 달라져.

실무에서는 Tensor Core가 보이면 아래 네 가지를 먼저 보면 돼.

어떤 GPU 세대인지: H100의 Hopper·SM90인지, Blackwell의 B200·SM100 계열인지 나눠.
어떤 정밀도인지: BF16 기준선인지, FP8인지, FP4/NVFP4인지 분리해.
어떤 런타임인지: TensorRT-LLM, vLLM, PyTorch, 직접 CUDA 커널 중 실제로 Tensor Core 경로를 타는지 확인해.
어떤 지표인지: 평균 처리량 하나보다 p50·p95 지연시간, tokens/sec, 정확도 회귀, NaN/Inf, VRAM 사용량을 같이 봐.

정리하면 Tensor Core는 AI 모델을 더 똑똑하게 만드는 이름이 아니라, 모델 계산을 GPU 안에서 어떤 정밀도와 커널로 처리하느냐를 가르는 이름이야. 이걸 분리해서 읽으면 “Blackwell이라서 빠르다”보다 “이 워크로드가 어떤 Tensor Core 경로를 실제로 타는가”라는 질문으로 바뀌어.

이 항목을 참조하는 위키

포맷 v3 가이드 wiki 3.2.0

팩트 체크

통과 · 2026-05-07 KST

검증 생성: AI + 편집 검토 · 2026-05-07 상태: 통과

통과 원문 대조 검증 출처 4

Tensor Core를 GPU 전체나 CUDA 전체가 아니라, NVIDIA GPU 안의 혼합 정밀도 연산 블록으로 잡았는지 공식 문서와 맞췄어.

독자 문제 대조: Tensor Core를 새 모델 이름이나 CUDA 라이브러리 이름으로 읽지 않게, 첫 정의를 GPU 안의 행렬 연산 하드웨어로 고정했어.
NVIDIA Tensor Cores 페이지는 Tensor Cores가 mixed-precision computing을 가능하게 하고 AI·HPC 작업을 가속한다고 설명해.
같은 페이지의 Blackwell 섹션은 5세대 연산 블록과 community-defined microscaling format, FP4 정밀도를 함께 다뤄.
Blackwell 아키텍처 페이지는 2세대 Transformer Engine이 custom Tensor Core 기술과 TensorRT-LLM, NeMo 쪽 혁신을 함께 쓴다고 적어.
DGX B200 스펙은 이 연산 블록의 성능을 FP4와 FP8 항목으로 따로 표기해서, 정밀도 정책과 같이 읽혀야 한다는 본문 축을 뒷받침해.

통과 교차 검증 검증 출처 6

기술 설명, 아키텍처 설명, 출시 보도, 제품 스펙, 독립 연구 문헌을 나눠 보고 같은 이름이 어느 층위에서 쓰이는지 비교했어.

비교 기준: Tensor Core 자체, Blackwell 아키텍처, B200 GPU 제품명, DGX B200 시스템 스펙을 서로 다른 층위로 갈랐어.
지원 정밀도 표에서 Blackwell 열이 NVFP4, FP64, TF32, BF16, FP16, FP8/FP6, INT8을 다룬다고 보여 줘.
Blackwell 아키텍처 페이지는 2080억 트랜지스터와 10TB/s 칩 간 연결 같은 GPU 세대 설명을 주고, Tensor Core는 그 안의 연산 블록으로 등장해.
Newsroom 발표는 B200 계열 GPU, GB200, NVLink 같은 플랫폼 구성요소를 함께 언급해서 제품명 안의 Tensor Core와 연산 블록을 구분하게 해.
DGX B200 페이지는 8개 Blackwell GPU와 FP8 72 PFLOPS 같은 시스템 단위 숫자를 제시하므로, Tensor Core 숫자를 단일 칩 성능처럼 옮기지 않았어.
ORNL의 peer-reviewed 항목은 Volta 세대 Tensor Core를 4x4 matrix-multiply-and-accumulate 전용 단위로 설명하고, WMMA·CUTLASS·cuBLAS 같은 프로그래밍 경로를 따로 언급해 하드웨어와 CUDA 경로 구분을 보강해.
Ootomo·Yokota 논문 초록은 Tensor Core를 NVIDIA GPU의 mixed-precision matrix-matrix multiplication unit으로 설명하고, 입력을 half precision으로 바꿀 때 정확도 손실이 생길 수 있다고 다뤄서 본문의 회귀 검사 경고를 받쳐 줘.

통과 수치 검증 검증 출처 4

본문 숫자는 Blackwell 아키텍처와 DGX B200 스펙에서 직접 확인되는 범위로만 남겼어.

Blackwell 아키텍처 공식 페이지 기준 Blackwell GPU는 2080억 트랜지스터와 TSMC 4NP 공정, 10TB/s 칩 간 연결을 써.
같은 페이지는 Blackwell Ultra의 해당 연산 블록이 기존 Blackwell GPU 대비 attention-layer acceleration 2배, AI compute FLOPS 1.5배라고 설명해.
NVIDIA의 지원 정밀도 표는 Blackwell 열에 NVFP4, FP64, TF32, BF16, FP16, FP8/FP6, INT8을 함께 적어.
DGX B200 스펙은 8x NVIDIA Blackwell GPUs, 1,440GB 총 GPU 메모리, 64TB/s HBM3e 대역폭, 14.4TB/s NVLink aggregate bandwidth를 제시해.
DGX B200의 Tensor Core 성능 표기는 FP4 144 PFLOPS sparse 또는 72 PFLOPS dense, FP8 72 PFLOPS sparse이며 dense는 sparse 수치의 절반이라는 주석이 붙어.

통과 비판 검토 검증 출처 4

Tensor Core를 성능 보장 문구로 과장하지 않도록, 정밀도·커널·제품 단위·벤치 조건을 따로 검토했어.

Tensor Core가 있어도 모든 연산이 자동으로 빨라지는 건 아니야. 큰 행렬곱과 지원 정밀도, 텐서 모양, 런타임 커널이 맞아야 이득이 나.
DGX B200의 3배 학습·15배 추론 문구는 projected performance 조건과 입력·출력 길이 주석이 붙은 제품 주장이라, 본문에서는 내 워크로드 보장으로 옮기지 않았어.
FP8과 FP4는 Tensor Core 처리량을 높일 수 있지만 BF16 기준선 대비 정확도 회귀, NaN/Inf, p95 지연시간을 따로 재야 해.
B200 Tensor Core GPU라는 제품명은 Tensor Core가 들어간 Blackwell GPU라는 뜻이지, Tensor Core만 따로 구매하거나 CUDA 전체를 뜻한다는 말이 아니야.

이 페이지의 결론은 Tensor Core가 보이면 GPU 세대, 지원 정밀도, CUDA 런타임, 실제 평가 지표를 같은 표에서 보자는 쪽이야.

출처: NVIDIA Tensor Cores , NVIDIA Blackwell Architecture , NVIDIA Newsroom — Blackwell platform launch , NVIDIA DGX B200 , Oak Ridge National Laboratory — NVIDIA Tensor Core programmability, performance & precision , International Journal of High Performance Computing Applications — Recovering single precision accuracy from Tensor Cores

Tensor Core(텐서 코어)

전체 AI 기술 맵에서의 위치

한 줄 정의

어떻게 작동하나

왜 중요한가

BF16·FP8·CUDA와 비교

관련 용어

이 항목을 참조하는 위키