핵심 요약
메타(Engineering)가 텐서 병렬, 컨텍스트 병렬, 전문가 병렬의 고도화로 LLM 추론의 자원 효율성, 처리량, 지연을 개선했고, DDA 기반 allreduce 최적화와 대형 컨텍스트 처리에서 실질적 성능 향상을 제시했습니다.
구현 방법
- TP+DDA 도입으로 allreduce 지연을 줄이고, DDA flat은 지연을 O(1), DDA tree는 상수 계수로 개선. AMD MI300X에서 NCCL/RCCL 대비 우수.
- CP: Pass-KV/Pass-Q 링 어텐션으로 1M/10M 토큰 장문 처리 가능; 1M 토큰 선입력 단일 H100 < 1분, 32 H100에서 10M 토큰도 < 1분. Llama 3 405B에서 128K 토큰 선입력 3.8초, 1M 토큰 77초.
- EP: two-shot all-to-all로 토큰 교환; 디코드 10-30% 레이턴시 감소 기대. Dynamic/Persistent all-to-all 연구 중.
- 향후 방향: N-D 병렬성 확장 및 프릴/디코딩 분리, 이질 하드웨어 활용으로 대형 모델의 효율성 극대화.
주요 결과
- decode 10-50%, prefill 10-30%, TTIT 약 10% 감소
- 128K 토큰 선입력 3.8초, 1M 토큰 77초(16노드 CP); 32 H100에서 10M 토큰도 <1분
- AMD MI300X와 H100의 성능 차이를 최소화하는 결과 입증


