핵심 요약
무신사는 온프렘 GPU와 AWS를 결합한 하이브리드 AI 인프라를 구축해 비용 절감과 확장성을 확보하는 여정에서 AutoMode, Karpenter, eBPF 기반 Cilium, NLB 전환, OpenTelemetry 관측, Gateway API 기반 Inference Extension 등을 도입해 운영의 안정성과 관측성을 확보했습니다.
구현 방법
- On-Prem GPU(H100/H200/Blackwell)와 AWS를 하나의 쿠버네티스 클러스터처럼 연결
- AutoMode + Hybrid Node를 시작으로 Self-managed Karpenter 도입으로 확장성 확보
- 네트워크/관측: eBPF(Cilium)로 CNI 교체 및 OpenTelemetry로 로그/메트릭/트레이스 수집
- Inference 확장: Gateway API Inference Extension 도입 및 Priority 기반 라우팅 설계
- 로드밸런싱: ALB에서 NLB로 전환하여 안정성과 예측 가능한 지연 달성
주요 결과
- 비용 절감 최대 95% 달성
- 트래픽 급증에도 안정적인 운용 및 지연 관리 체계 확보
