핵심 요약
쿠팡은 LLM 도입과 멀티모달 연구를 통해 ML 플랫폼의 확장성과 자원 효율화를 추진하고, GPU 공급 제약 해소를 위해 하이브리드 멀티 리전 클러스터와 오픈 소스 도구를 활용했습니다.
구현 방법
- 모델 병렬 학습: DeepSpeed Zero 기반
- GPU 인프라: A100/A80, A10G-24, 다지역 클러스터
- 추론/배치: Triton, Ray + vLLM
- 도구: Polyaxon, Zeppelin/Spark on Kubernetes
- 멀티모달: CLIP/TrOCR
주요 결과
- GPU 공급 부족 완화 및 비용 절감
- 다지역 배포로 운영 일관성 향상
- 오픈 소스 도입으로 생산성과 학습 곡선 개선

