한 줄 정의

Jetson Thor는 NVIDIABlackwell 기반 Jetson 플랫폼이야. 서버실에 꽂는 NVIDIA GPU라기보다, 로봇이나 엣지 장치 안에서 센서 처리와 추론을 같이 맡는 로봇용 컴퓨터로 보면 돼.

숫자만 보면 커 보여. 상위 개발자 키트와 T5000 계열은 최대 2070 FP4 TFLOPS, 128GB LPDDR5X, 273GB/s 메모리 대역폭, 40W~130W 전력 범위를 내세워. 다만 이 숫자는 엣지 로봇용 예산표에서 읽어야지, H100 같은 데이터센터 GPU의 대체품이라고 바로 읽으면 곤란해.

실제로 무엇을 하나

Jetson Thor의 자리는 모델 하나를 빠르게 돌리는 카드보다 넓어. 카메라, 이더넷 센서, 로봇 제어, 비전 모델, LLM이나 VLM 추론을 한 장치 안에 묶는 역할에 가까워. NVIDIA는 이 플랫폼을 휴머노이드 로봇, Holoscan Sensor Bridge, Isaac GR00T 같은 물리 AI 작업과 연결해 설명해.

그래서 CUDA 호환 GPU가 있다는 말만으로 끝나지 않아. 실제 제품에서는 4x 25GbE 같은 센서 I/O, 14코어 Arm Neoverse CPU, 전력 모드, 냉각, 카메라 입력, 실행 환경 지원이 같이 걸려. 로봇 안에서 모델이 답을 잘해도, 센서 프레임을 제때 받아 오지 못하거나 열 설계가 버티지 못하면 배포 판단은 달라져.

Jetson Thor가 최근 AI 모델 문서에 자주 보이는 이유도 여기 있어. Nemotron 3 Nano Omni 모델 카드는 이 장치를 Blackwell 호환 하드웨어와 Jetson 배포 대상으로 적고, Jetson 배포에서 쓰는 추론 실행 경로로 vLLM, SGLang, llama.cpp, Ollama, TensorRT Edge-LLM을 따로 적어.

왜 중요한가

AI 인프라를 읽을 때 Jetson Thor는 “클라우드로 보낼지, 장치 안에서 끝낼지”를 가르는 이름으로 나온다. 영상, 음성, 센서 데이터를 계속 클라우드로 보내면 네트워크 지연과 비용, 개인정보 문제가 커질 수 있어. 반대로 로봇 안에서 바로 처리하면 지연시간을 줄일 수 있지만, 전력과 메모리 예산이 훨씬 빡빡해져.

여기서 정밀도 선택이 중요해진다. 같은 모델이라도 모델 카드BF16 가중치 파일을 62GB, FP833GB, NVFP421GB로 나눠 적어. 이 장치의 지원 여부는 주로 낮은 정밀도와 Jetson용 실행 환경을 같이 봐야 하는 이야기야. “30B급 모델이 Jetson Thor를 지원한다”와 “BF16 원본을 여유 있게 운영한다”는 같은 말이 아니야.

FP4는 여기서 하드웨어 성능표를 읽을 때 보는 기준이고, FP8·NVFP4는 모델을 얼마나 작게 배포할지 판단할 때 보는 기준이야. 이름이 비슷해도 같은 숫자표로 비교하면 안 돼.

또 하나는 컨텍스트 윈도우야. 모델 카드는 최대 컨텍스트256k 토큰으로 적지만, vLLM 일반 예시는 131072를 쓰고 메모리 조정 안내에서는 OOM이 나면 더 낮추는 식으로 설명해. 엣지 장치에서는 모델 스펙의 최대치보다 실제 메모리와 지연시간 예산이 먼저 상한을 만들 수 있어.

실무에서 확인할 것

이 이름을 배포 후보로 보면 적용 전에 아래 순서로 먼저 보면 돼.

  • 모델 정밀도: BF16 원본인지, FP8인지, NVFP4양자화 모델인지 먼저 고른다.
  • 실행 경로: vLLM, llama.cpp, Ollama, TensorRT Edge-LLM 중 어느 실행 경로가 목표 입력을 지원하는지 확인한다.
  • 컨텍스트: 256k 상한을 바로 목표로 잡지 말고, 32k64k부터 메모리와 지연시간을 재는 편이 안전해.
  • 장치 예산: 40W~130W 전력 모드, 냉각, 카메라 입력, 4x 25GbE 같은 센서 I/O를 모델 메모리와 같이 본다.
  • 제품 기준: 로봇 제어 루프 안에서 필요한 응답 시간이 몇 ms인지, 클라우드로 보내면 안 되는 데이터가 무엇인지 먼저 적는다.

주의해서 볼 점

첫째, 이 FP4 TFLOPS 숫자를 LLM 체감 속도로 그대로 바꾸면 안 돼. 희소 성능 지표이고, 실제 추론은 모델 구조, 양자화, 배치, 입력 길이, 비전·음성 인코더, 런타임 커널에 따라 달라져.

둘째, Jetson Thor와 데이터센터 GPU를 같은 기준으로만 비교하면 판단이 꼬여. H100이나 B200은 서버 전력, HBM, NVLink, 랙 단위 운영을 전제로 하고, Jetson Thor는 로봇 안의 전력·열·I/O 예산을 전제로 해. 같은 NVIDIA GPU 계열이어도 물리적 자리가 다르다.

셋째, “지원”과 “제품 품질”은 다르다. 모델 카드에 Jetson Thor 실행 경로가 있어도, 실제 로봇 제품에서는 긴 영상, 여러 카메라, 음성, 제어 루프가 동시에 돈다. 그래서 데모 명령이 실행되는지보다, 목표 입력 길이에서 지연시간과 열, 메모리 여유가 남는지 먼저 재야 해.