한 줄 정의
Kubeflow는 Kubernetes 위에서 머신러닝 작업 흐름을 체계적으로 굴리게 해 주는 오픈소스 프레임워크야. 공식 사이트와 GitHub 저장소 2곳 모두 이걸 Kubernetes용 ML toolkit으로 설명해.
어떻게 작동하나
노트북, 학습 잡, 파이프라인, 서빙 같은 ML 구성 요소를 Kubernetes 자원과 연결해서 반복 가능한 워크플로로 만든다고 보면 돼. 보통 노트북, 파이프라인, 서빙처럼 최소 3개 축이 같이 움직여서 개별 스크립트를 손으로 이어 붙일 때보다 운영 규칙을 맞추기 쉬워져.
왜 중요한가
조직 규모가 커질수록 데이터 과학자, ML 엔지니어, 플랫폼 팀처럼 3개 역할이 같은 환경과 규칙을 공유해야 해서 머신러닝 작업을 표준화된 흐름에 올리는 가치가 커져. Kubeflow는 이런 역할 분리를 Kubernetes 운영 규칙 위에서 맞추는 데 도움을 줘.
주의해서 볼 점
Kubeflow는 강력하지만 Kubernetes 이해도와 운영 역량이 부족하면 오히려 팀 부담을 크게 늘릴 수 있어. 실험 추적이나 모델 등록 같은 일부 기능만 필요하다면 더 가벼운 도구 조합이 Kubeflow 전체 도입보다 현실적일 때도 많아.
관련 용어
- weights-and-biases: W&B는 실험 기록과 시각화에 더 직접적인 도구야. Kubeflow는 그보다 쿠버네티스 위에서 파이프라인과 배포까지 묶는 운영 틀에 더 가까워.
- mlflow: MLflow는 실험 추적, registry, 평가 흐름을 다루는 데 익숙한 선택지야. Kubeflow는 여기에 Kubernetes 기반 오케스트레이션과 워크플로 자동화 비중이 더 커.