핵심 요약
AWS의 관리형 EKS 컨트롤 플레인과 Amazon EKS Hybrid Nodes를 활용해 달파의 온프레미스 GPU 자원과 AWS 클라우드 GPU 자원을 단일 클러스터에서 운영하고, 비용 효율성과 가용성을 크게 개선했습니다.
구현 방법
- 온프레미스 GPU 노드를 EKS Hybrid Nodes로 등록
- 클라우드 GPU 노드를 백업 자원으로 구성해 장애 시 페일오버 지원
- Site-to-Site VPN과 Transit Gateway로 네트워크를 간소화
- BGP 데몬과 Bird를 통한 동적 라우팅 자동화
주요 결과
- GPU 비용 약 70% 절감
- 온프레미스 장애 시 클라우드로 자동 페일백으로 가용성 향상
- 네트워크 구성 및 관리 복잡도 감소

