한 줄 정의
Runtime은 저장된 모델 파일을 실제 하드웨어에서 돌려서 추론 결과를 내는 실행 계층이야. 모델 자체가 아니라 모델을 먹여서 응답을 꺼내는 엔진 쪽이라고 보면 돼.
어떻게 작동하나
런타임은 모델 그래프와 가중치를 읽고, 연산을 어떤 CPU나 GPU 커널로 돌릴지 정하고, 메모리와 배치 처리도 관리해. 실무에선 API 요청이 들어왔을 때 이 계층이 실제 추론을 수행해서 결과를 돌려주는 역할을 맡아.
왜 중요한가
모델 품질이 비슷해도 어떤 런타임을 쓰느냐에 따라 응답 속도, 동시 처리량, 운영 비용이 크게 갈려. 그래서 제품 성능을 올릴 때는 모델 선택만큼이나 실행 엔진 선택이 중요해.
주의해서 볼 점
런타임을 서빙 플랫폼 전체랑 같은 말로 쓰면 범위가 쉽게 섞여. 어떤 도구는 순수 실행 엔진에 가깝고, 어떤 도구는 배포와 스케줄링까지 포함하니 어디까지 책임지는지 나눠서 봐야 해.
관련 용어
- BentoML은 런타임보다 더 넓은 서빙과 운영 레이어를 다루는 도구로 자주 읽혀. 그래서 실행 엔진과 배포 플랫폼을 구분할 때 같이 보면 좋아.
- vLLM은 특히 LLM 추론 최적화에 초점을 둔 런타임 계열이야. 범용 엔진과 무엇이 다른지 볼 때 좋은 비교점이 돼.
- Quantization은 같은 런타임 위에서도 속도와 메모리 사용을 바꾸는 최적화 기법이야. 런타임 선택과 수치 최적화는 별개 층위야.
- Inference는 결과를 내는 행위 자체야. 런타임은 그 행위를 실제 시스템에서 수행하게 만드는 계층이야.