핵심 요약
AWS가 EFA 환경에서 NCCL과 libfabric의 작동 원리와 설치 구성 차이를 정리합니다. aws-ofi-nccl 플러그인의 역할, Open MPI/Intel MPI의 차이, SRD 기반 전송 특성도 함께 다룹니다.
주요 특징
- NCCL의 토폴로지 자동 감지(NUMA, NV링크/NVSwitch)로 최적의 링/트리 알고리즘을 선택
- 파이프라이닝과 청크 기반 전송으로 대역폭과 지연의 균형을 맞춤
- MPI 구현체와 NCCL 간의 인터페이스 차이 및 설치 구성 안내; aws-ofi-nccl 브리지의 역할
적용 고려사항
- 최신 libfabric 및 aws-ofi-nccl 버전 필요, EFA 지원 여부 확인
- Intel MPI 사용 시 I_MPI_OFI_LIBRARY_INTERNAL=0, FI_PROVIDER=efa 설정 필요
- 기본값으로 시작하고 nccl-tests로 벤치마크 후 필요 시 환경변수 조정



