핵심 요약
쿠팡의 ML 플랫폼은 온프레미스-AWS 하이브리드로 관리형 Jupyter Notebook, Feast 피처 스토어, 모델 학습/추론, Seldon 서빙을 제공해 600+ ML 프로젝트에서 100,000+ 워크플로를 실행했고 Ko-BERT 학습 속도는 10배 빨랐습니다.
구현 방법
- 도커 컨테이너에 TensorFlow, PyTorch, Scikit-Learn, HuggingFace/Transformers 포함
- Feast 기반 오프라인/온라인 피처 스토어와 Seldon 서빙
- Kubernetes 기반 파이프라인 실행, 분산 학습 및 Canary 배포
주요 결과
- Ko-BERT 다중 GPU 분산 학습으로 학습 속도 10배 향상
- ML 프로젝트 600+, 워크플로 100,000건 이상 실행
- 온프레미스+AWS 하이브리드 인프라로 자원 효율화 및 비용 절감


