핵심 요약
왓챠의 ML 팀은 도커·쿠버네티스 기반 파이프라인 운영과 Argo 도입, JupyterHub 실험환경 구축으로 유연성과 재현성을 높였고, On-premise GPU 서버와 AWS 네트워크 연결로 안정적이고 확장 가능한 실험 환경을 만들었습니다.
주요 경험
- 도커/쿠버네티스로 실행 환경 고립화와 파이프라인의 병렬 처리 및 자원 효율 개선
- Argo Workflow와 Helm 차트로 파이프라인 관리 간소화하고 백업 플랜으로 리소스 분산 운영
- JupyterHub 도입으로 연구환경 독립성과 데이터 공유 용이화
얻은 인사이트
- 엔드-투-엔드 파이프라인 재사용성과 운영 편의성 증가
- 하이브리드 인프라에서 리소스 할당과 네트워크 비용 관리가 가능
- 동일한 실험 환경 유지로 연구 생산성과 협업이 향상


