핵심 요약
AWS가 G5/G6의 4장 A10G로 텐서 병렬화(TP=4)로 32B~70B급 LLM을 H100 없이 서빙하는 구성과 성능을 제시했습니다. 96GB 메모리로 모델과 KV 캐시를 분산하고, 16명 동시에서 TP=4가 TP=1 대비 약 2.1배의 처리량 증가와 52%의 응답 시간 단축을 보였습니다.
구현 방법
- vLLM 기반 TP 구성으로 4GPU에 모델 분산
- KV 캐시 분산 및 양자화 가능
- 1/2/4 GPU 비교 및 동시성 벤치마크
주요 결과
- TP=4 시작 시간 110초(1 대비 약 55% 증가)
- 16명 동시: 787.9 t/s vs 378.8 t/s, 2.1x 차이
- 개인 체감 속도 52.6 vs 25.3 tokens/s



