Moait
홈인기 피드모든 블로그모든 태그
홈인기 피드모든 블로그모든 태그

Zoomer: Powering AI Performance at Meta’s Scale Through Intelligent Debugging and Optimization

메타 (Engineering) favicon메타 (Engineering)·AI/ML·
PyTorchKinetoPerfettoNCCLNVIDIA DCGM
2025년 11월 21일0

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

메타(Engineering)가 Zoomer를 통해 AI 학습/추론 워크로드의 자동 디버깅·최적화를 구현하고, GPU 활용도 향상과 에너지 절감에 기여한 사례를 소개합니다.

구현 방법

  • 인프라/플랫폼 계층: Manifold 기반 trace 수집과 분산 프로파일링 트리거
  • 분석 엔진: Kineto, DCGM, StrobeLight, dyno 등으로 자동 문제 탐지 및 제안
  • 시각화: Perfetto 연계 대시보드와 자동 인사이트 요약

주요 결과

  • 75% 훈련 시간 단축, 78% 전력 감소 사례 포함
  • QPS 2~50% 개선, 32k GPU에서 30%, 64k에서 25% 속도향상
  • 매일 수만 건의 프로파일링 리포트 생성 및 대규모 모델 지원

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!
No Image
69%

Disaggregated Scheduled Fabric: Scaling Meta’s AI Journey

메타 (Engineering) favicon메타 (Engineering)·2025년 10월 20일
No Image
69%

Scaling LLM Inference: Innovations in Tensor Parallelism, Context Parallelism, and Expert Parallelism

메타 (Engineering) favicon메타 (Engineering)·2025년 10월 17일
No Image
69%

Scaling Privacy Infrastructure for GenAI Product Innovation

메타 (Engineering) favicon메타 (Engineering)·2025년 10월 23일