한 줄 정의
NVIDIA는 GPU, 서버 간 연결 기술, CUDA 생태계로 AI 데이터센터를 떠받치는 인프라 회사야. LLM을 직접 서비스하는 회사라기보다, 그런 모델을 학습하고 추론하는 바닥을 파는 회사로 보면 덜 헷갈려.
실제로 무엇을 하나
- 학습: 대형 모델을 오래 돌릴 때 필요한 데이터센터용 GPU, NVLink 같은 연결 구조, 서버 단위 구성을 판다. 수천 장 GPU를 묶는 일이 핵심이라서 칩 하나 성능보다 GPU끼리 얼마나 빠르게 묶이느냐가 같이 중요해.
- 추론: 이미 만든 모델을 실제 서비스에 올릴 때 응답 속도와 비용에 직접 닿는 NVIDIA GPU 계열을 공급한다. 챗봇, 코딩 도구, 검색 보조처럼 요청이 계속 들어오는 서비스에서는 토큰당 비용과 처리량이 바로 운영 문제로 이어져.
- 소프트웨어 층: 개발자가 GPU를 직접 쓰게 하는 CUDA와 그 위 라이브러리, 런타임 경로를 함께 판다. 실제 현장에서는 raw CUDA C++를 안 써도 cuBLAS, cuDNN, CUTLASS 같은 라이브러리와 프레임워크가 이 바닥을 타기 때문에, 하드웨어만이 아니라 실행 생태계도 같이 NVIDIA 범위에 들어와.
왜 중요한가
숫자로 보면 방향이 바로 보여. NVIDIA는 2026년 2월 발표한 FY2026 실적에서 총매출 2159억 달러를 기록했고, 그중 데이터센터 매출이 1937억 달러였어. 같은 발표에서 Q4 데이터센터 매출은 623억 달러, 게임 매출은 37억 달러였지. 그래서 AI 기사에서 NVIDIA를 볼 때는 PC 그래픽카드 회사로만 읽기보다, AI 인프라 수요가 어디로 몰리는지 보여 주는 회사로 읽는 편이 맞아.
OpenAI 같은 회사가 어떤 모델을 내놨는지와, NVIDIA가 어떤 GPU 세대와 소프트웨어 경로를 밀고 있는지는 같은 AI 뉴스 안에서도 다른 층위야. 전자는 모델 능력과 제품 전략의 문제고, 후자는 공급, 전력, 데이터센터 CAPEX, 추론 비용의 문제에 더 가깝지. 이 차이를 모르고 읽으면 기사 해석이 쉽게 섞여.
CUDA 생태계가 강하다는 점도 중요해. 코드, 라이브러리, 배포 경로가 NVIDIA GPU 기준으로 굳어 있으면 시작은 빠를 수 있어도, 나중에 다른 가속기나 다른 런타임으로 옮길 때 마이그레이션 비용이 커질 수 있어. 숫자는 숫자고, 실제 팀 손에서 어느 정도까지 묶이는지가 진짜야.
주의해서 볼 점
NVIDIA가 AI 전체와 같은 말은 아니야. NVIDIA는 LLM 자체를 만드는 회사라기보다, 그런 모델이 돌아가게 하는 하드웨어와 소프트웨어 층을 파는 회사야. 그래서 “NVIDIA가 잘나간다”는 말이 곧바로 “어떤 AI 제품이 잘된다”는 뜻은 아니고, 인프라 쪽 병목과 수요가 어디에 몰리는지 보여 주는 신호에 더 가까워.
벤치마크 수치도 조심해서 봐야 해. Blackwell 문서의 2080억 트랜지스터와 10TB/s 칩 간 연결은 분명 큰 숫자지만, 그 수치가 모든 서비스의 응답 시간이나 토큰당 비용을 자동으로 줄여 주는 건 아니야. Transformer 구조, 배치 크기, 메모리 예산, 서비스 런타임이 달라지면 체감 결과도 달라져.
마지막으로 공급과 규제를 같이 봐야 해. 실적 숫자는 회사 방향을 읽는 데 유용하지만, 공급 제약, 전력과 냉각, 수출 제한, 대형 고객의 투자 사이클이 같이 움직여. AI 인프라 기사를 읽을 때는 “GPU가 빠르다”에서 멈추지 말고, 그 GPU를 누가 얼마나 안정적으로 확보하고 굴릴 수 있는지까지 같이 보는 편이 맞아.