핵심 요약
AWS가 EKS Auto Mode를 기반으로 GPU 인프라를 자동화하고 Bifrost와 Langfuse를 통해 2-Tier 관측성을 구현함으로써 자체 관리형 Agentic AI 플랫폼의 운영 안정성을 확보하는 방법을 제시합니다.
구현 방법
- EKS Auto Mode + Karpenter를 활용한 관리형 컨트롤 플레인 구성, Just-in-Time GPU 노드 프로비저닝 및 Spot 인스턴스 활용
- 멀티 모델 라우팅을 위한 Bifrost AI Gateway 도입: self-hosted-vLLM과 Bedrock을 동일한 API 엔드포인트에서 라우팅
- Langfuse를 통한 2-Tier 관측성 구현: 인프라 레벨 비용 추적과 애플리케이션 레벨 실행 시간/품질 추적 병행
주요 결과
- 외부 API 비용을 0에 가깝게 만들고 GPU 인프라 비용만으로 운영 가능
- Karpenter의 Spot 자동 프로비저닝으로 비용 절감(최대 70% 수준)
- 2-Tier 관측성으로 모델별 비용과 에이전트 품질을 동시에 모니터링 가능

