한 줄 정의

Triton Inference Server는 AI 모델을 HTTP나 gRPC 같은 공통 인터페이스 뒤에 올려서 서비스용으로 배포하는 서버야. 핵심은 모델을 학습하는 게 아니라, 다양한 모델 형식을 한 운영 계층에서 다루게 해 준다는 점이야.

어떻게 작동하나

서버 안에 모델 저장소와 백엔드를 두고, 들어온 요청을 적절한 모델 버전과 실행 엔진으로 연결해. 배치 처리, 동시 요청 처리, 모델 버전 관리 같은 운영 기능을 붙여서 TensorRT, PyTorch, ONNX 계열 모델을 한 표면 아래서 굴리게 해 줘.

왜 중요한가

실무에서는 모델 정확도만큼이나 GPU 활용률, 지연 시간, 버전 교체 안정성이 중요해. 그래서 기사에서 Triton이 나오면 모델 품질 자체보다 추론 운영 계층, 서버 배포 방식, 대규모 요청 처리 전략 얘기일 가능성이 크다고 보면 돼.

주의해서 볼 점

Triton을 붙인다고 모든 모델이 자동으로 빨라지는 건 아니야. 모델 형식 호환, 전처리 파이프라인, 배치 크기, GPU 메모리 구성까지 맞아야 해서 그냥 서버 하나 띄우는 문제로 보면 부족해.

관련 용어

  • vllm: LLM 추론 최적화에 더 깊게 들어가는 엔진이자 서빙 스택이야. Triton은 더 범용적인 모델 서빙 계층이라는 점에서 결이 달라.
  • sglang: LLM과 멀티모달 추론 최적화에 집중한 프레임워크라서 Triton과 비교될 때가 많아. 둘 다 서빙 얘기지만 최적화 초점이 다르다는 걸 같이 봐야 해.
  • ollama: 로컬에서 모델을 쉽게 띄우는 경험 쪽에 더 가깝고, Triton은 서버 운영과 다중 요청 처리 쪽이 더 중심이야.
  • inference: 추론은 결과를 계산하는 행위 자체고, Triton은 그 추론을 서비스 형태로 안정적으로 제공하는 운영 도구야.