핵심 요약
AWS가 ENI와 네트워크 카드를 분리한 구조로 EFA 기반 고성능 분산 트레이닝 구성을 설명합니다. p5.48xlarge와 p6-b300.48xlarge의 구체적 사례를 제시합니다.
구현 방법
- ENI 유형(ENA, EFA with ENA, EFA-only)와 Primary ENI의 NetworkCardIndex=0 규칙, DeviceIndex의 로컬 포지션 정리
- p5.48xlarge: 32개 NetworkCardIndex, 0번 카드에 Primary ENI(NIC0, ENA) + EFA-only 1개, 나머지 카드(NCI 1-31)에는 EFA-only 1개씩 구성
- p6-b300.48xlarge: Use Case 1은 ENA 350 Gbps의 Primary + 나머지 16카드에 EFA-only 400 Gbps; Use Case 2는 NCI0 ENA 350 Gbps, NCI1-16 각 카드에 EFA-only 400 Gbps + ENA 220 Gbps를 별도 구성
- 자동화 권장: CloudFormation, Terraform, ParallelCluster
주요 결과
- p5.48xlarge 총 대역폭 3,200 Gbps, 카드당 100 Gbps, 관리 트래픽과 HPC 트래픽 분리로 간섭 최소화
- p6-b300.48xlarge 최대 EFA 6,400 Gbps, ENA 최대 3,870 Gbps 달성; Use Case별 구성으로 유연성 확보



