핵심 요약
메타(Engineering)가 Disaggregated Scheduled Fabric(DSF)로 대규모 AI 클러스터를 연결하는 아키텍처를 소개합니다.
구현 방법
- 이더넷 도메인과 패브릭 도메인을 분리한 이중 도메인 아키텍처
- IN(RDSW)/FN(FDSW) + FBOSS 제어, FSBD 동기화
- 패킷 스프레이 + VOQ 기반의 무손실 및 고성능 흐름 제어
- 2x400G FR4, 4x800G ED/SDSW, L3 슈퍼스파인으로 대규모 GPU 연결
주요 결과
- L1/L2/L3 다계층 구성으로 수천 GPU 확장 가능
- 입력 균형 모드 도입으로 장애 시 재배치 신속성 강화