핵심 요약
AWS가 SageMaker HyperPod를 활용해 슈퍼브에이아이의 비전 파운데이션 ZERO를 대규모 분산 학습에 적용했고, 원시 데이터 10억 장 중 약 4백만 장의 고품질 샘플로 학습을 진행했습니다. 이로써 ZERO는 오픈 월드 환경에서 다양한 객체를 인식하는 범용성을 확보했습니다.
구현 방법
- SageMaker HyperPod로 인스턴스 크기 유연 조정과 EFA 네트워크를 활용한 멀티 노드 학습 구현
- Arrow 포맷으로 4백만 장 규모 데이터를 샤드 1GB 단위로 S3에 업로드하고 FSx Lustre로 고속 데이터 접근 확보
- Training Plan 예약과 리허설로 예외를 조기에 발견하고 WandB 모니터링으로 비용 효율성 확보
주요 결과
- 오픈 월드에서의 범용성 확보 및 제로샷으로 객체/결함 즉시 검출 가능
- 리허설로 버그를 미리 수정하고 실제 학습 시간과 비용을 절감



