핵심 요약
AWS의 인터커넥트 기술 선택은 멀티테넌시와 비용 효율성에 최적화된 EFA(SRD) 기반 RDMA의 도입 및 운영 방식을 분석한 포스트다.
주요 경험
- 멀티테넌시 환경에서 인피니밴드의 고비용과 운영 복잡성을 지적하고, EFA의 온디맨드 사용과 AWS 생태계 연동 이점을 제시
- SRD/libfabric 기반 OS 바이패스 RDMA 아키텍처의 실용성 강조
- 대규모 트레이닝에서 GPU 간 통신 오버헤드가 전체 시간의 22-47%, H100 기준 약 43%로 보고
얻은 인사이트
- 클라우드 환경에선 범용 이더넷 위에 RDMA를 구현하는 것이 비용 효율성과 확장성 측면에서 유리
- EFA의 AWS 생태계와의 통합은 워크로드 흐름을 원활하게 한다
- 특정 소프트웨어가 벤더에 강하게 묶이면 EFA 최적화가 어려울 수



