핵심 요약
NAVER D2의 ENGINEERING DAY 2025 세션에서 대규모 GPU 쿠버네스 클러스터를 활용한 AI 서비스 오토스케일링 사례를 소개합니다. 자체 HPA로 글로벌 트래픽에 동적으로 대응하는 아키텍처를 다룹니다.
구현 방법
- GPU 클러스터에 최적화된 자체 HPA 설계 및 Kubernetes 연동
- SNOW GPU 오케스트레이션 시스템 도입으로 이벤트 기반 확장 구현
- 운영에 맞춘 지표 선정과 정책 튜닝
주요 결과
- 급증 트래픽에 대한 응답성 및 안정성 개선
- 자원 활용 탄력성과 예측 가능성 강화
- 향후 다수 서비스 확장 가능성 확보