홈 인기 피드 모든 블로그 모든 태그

홈 인기 피드 모든 블로그 모든 태그

Boost Training Goodput: How Continuous Checkpointing Optimizes Reliability in Orbax and MaxText 섬네일

Boost Training Goodput: How Continuous Checkpointing Optimizes Reliability in Orbax and MaxText

구글·AI/ML·

2026년 03월 31일1

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

구글이 Orbax와 MaxText의 연속 체크포인팅 기능을 도입하여 학습 중 신뢰성과 성능의 균형을 최적화했습니다.

구현 방법

이전 저장이 성공적으로 완료된 뒤에만 새 저장 작업을 비동기로 시작하도록 설계
고정 간격 체크포인팅의 한계를 해소하고 I/O 대역폭을 최대화하며 실패 위험을 최소화
시스템 구성 및 트리거 방식의 핵심 포인트를 개선

주요 결과

벤치마크에서 체크포인트 간격이 크게 감소
대규모 학습에서 MTBF가 짧은 경우 자원 절감 효과가 크게 나타남

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!

We terminated a TPU mid-training and it recovered in seconds: Introduction to elastic training with MaxText 섬네일

We terminated a TPU mid-training and it recovered in seconds: Introduction to elastic training with MaxText

구글·2026년 07월 06일

MaxText Expands Post-Training Capabilities: Introducing SFT and RL on Single-Host TPUs 섬네일

MaxText Expands Post-Training Capabilities: Introducing SFT and RL on Single-Host TPUs

구글·2026년 04월 16일

Speeding Up AI: Bringing Google Colossus to PyTorch via GCSFS and Rapid Bucket 섬네일

Speeding Up AI: Bringing Google Colossus to PyTorch via GCSFS and Rapid Bucket

구글·2026년 04월 29일