핵심 요약
메타(Engineering)가 Zoomer를 통해 AI 학습/추론 워크로드의 자동 디버깅·최적화를 구현하고, GPU 활용도 향상과 에너지 절감에 기여한 사례를 소개합니다.
구현 방법
- 인프라/플랫폼 계층: Manifold 기반 trace 수집과 분산 프로파일링 트리거
- 분석 엔진: Kineto, DCGM, StrobeLight, dyno 등으로 자동 문제 탐지 및 제안
- 시각화: Perfetto 연계 대시보드와 자동 인사이트 요약
주요 결과
- 75% 훈련 시간 단축, 78% 전력 감소 사례 포함
- QPS 2~50% 개선, 32k GPU에서 30%, 64k에서 25% 속도향상
- 매일 수만 건의 프로파일링 리포트 생성 및 대규모 모델 지원