Moait
홈인기 피드모든 블로그모든 태그
홈인기 피드모든 블로그모든 태그

Scaling LLM Inference: Innovations in Tensor Parallelism, Context Parallelism, and Expert Parallelism

메타 (Engineering) favicon메타 (Engineering)·AI/ML·
Tensor ParallelismContext ParallelismExpert ParallelismMixture of ExpertsDisaggregated Inference
2025년 10월 17일1

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

메타(Engineering)가 텐서 병렬, 컨텍스트 병렬, 전문가 병렬의 고도화로 LLM 추론의 자원 효율성, 처리량, 지연을 개선했고, DDA 기반 allreduce 최적화와 대형 컨텍스트 처리에서 실질적 성능 향상을 제시했습니다.

구현 방법

  • TP+DDA 도입으로 allreduce 지연을 줄이고, DDA flat은 지연을 O(1), DDA tree는 상수 계수로 개선. AMD MI300X에서 NCCL/RCCL 대비 우수.
  • CP: Pass-KV/Pass-Q 링 어텐션으로 1M/10M 토큰 장문 처리 가능; 1M 토큰 선입력 단일 H100 < 1분, 32 H100에서 10M 토큰도 < 1분. Llama 3 405B에서 128K 토큰 선입력 3.8초, 1M 토큰 77초.
  • EP: two-shot all-to-all로 토큰 교환; 디코드 10-30% 레이턴시 감소 기대. Dynamic/Persistent all-to-all 연구 중.
  • 향후 방향: N-D 병렬성 확장 및 프릴/디코딩 분리, 이질 하드웨어 활용으로 대형 모델의 효율성 극대화.

주요 결과

  • decode 10-50%, prefill 10-30%, TTIT 약 10% 감소
  • 128K 토큰 선입력 3.8초, 1M 토큰 77초(16노드 CP); 32 H100에서 10M 토큰도 <1분
  • AMD MI300X와 H100의 성능 차이를 최소화하는 결과 입증

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!
Accelerating Coupang’s AI Journey with LLMs 섬네일
78%

Accelerating Coupang’s AI Journey with LLMs

쿠팡 favicon쿠팡·2024년 10월 14일
Post-LLM 시대: 조합형 AI 생태계에 대한 아키텍처 분석 섬네일
72%

Post-LLM 시대: 조합형 AI 생태계에 대한 아키텍처 분석

한글과컴퓨터 favicon한글과컴퓨터·2025년 09월 17일
Mergekit, LLM을 한번 합쳐보자! 섬네일
70%

Mergekit, LLM을 한번 합쳐보자!

빅웨이브에이아이 favicon빅웨이브에이아이·2024년 02월 21일