핵심 요약
AWS가 EKS에서 NVIDIA OSMO로 Physical AI 워크플로를 운영하기 위한 레퍼런스 아키텍처를 제시합니다. GPU 스케줄링, 아티팩트 보존, 관찰 가능성, 보안을 하나의 운영 패턴으로 제공합니다.
구현 방법
- Terraform으로 인프라를 생성하고 Helm/kubectl로 구성 설치
- OSMO 외부 의존성 유지 및 버전 고정
- pool/platform 등록과 override_pod_template 적용
- EFA 네트워크 가속과 프라이빗 엔드포인트, IMDSv2 적용
- 메타데이터/아티팩트/시크릿은 RDS/ElastiCache/S3/ECR/KMS/Secrets Manager로 관리
- 아티팩트는 S3에 저장, 시크릿은 Secrets Manager와 Kubernetes Secret 주입
- ingress 기본 비활성화, 필요 시 추가 구성
주요 결과
- GPU 워크플로 구현은 EKS/Karpenter에서 실행되며, 아티팩트와 메트릭은 S3와 AMP/AMG로 관리 및 시각화
- 데이터 보안/암호화 및 프라이빗 네트워크 구성을 통해 운영 안정성 강화



