Moait
홈인기 피드모든 블로그모든 태그
홈인기 피드모든 블로그모든 태그
SageMaker AI로 해보는 GPT-OSS 추론 성능 테스트와 용량 산정 섬네일

SageMaker AI로 해보는 GPT-OSS 추론 성능 테스트와 용량 산정

AWS faviconAWS·AI/ML·
Amazon SageMakervLLMLLMSGLang
2025년 10월 24일10

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

AWS가 SageMaker AI에서 GPT-OSS 120B를 활용한 추론 성능 테스트와 GPU 용량 산정을 다루는 블로그를 공개했습니다. 프리필/디코드와 KV 캐시, 연속 배치, 페이지드 어텐션 등 최적화 기법과 vLLM 및 SGLang 벤치를 비교해 실무 인프라 설계에 필요한 인사이트를 제공합니다.

구현 방법

  • SageMaker AI에서 vLLM과 SGLang 가상환경 구성 및 설치
  • 텐서 병렬 8, max-model-len 4096, gpu-memory-utilization 0.8 설정
  • 200프롬프트 벤치로 엔드포인트 구동 및 성능 수치 확인

주요 결과

  • 총 200프롬프트 성공, 입력 토큰 409,318개, 출력 토큰 TPS 259.92
  • 평균 TTFT 924.48 ms, P99 TTFT 5223.02 ms, 총 토큰 처리량 1979.11 tok/s
  • 피크 동시성 17건으로 벤치의 처리량 한계 파악

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!
T4 GPU 1장으로 일궈낸 올리브영의 Gemma 3 기반 sLLM 구축기 섬네일
73%

T4 GPU 1장으로 일궈낸 올리브영의 Gemma 3 기반 sLLM 구축기

올리브영 favicon올리브영·2026년 01월 21일
왓챠 추천 서비스 MLOps 적용기 Part1 섬네일
72%

왓챠 추천 서비스 MLOps 적용기 Part1

왓챠 favicon왓챠·2024년 02월 28일
하이퍼엑셀(HyperAccel), Amazon EC2 F2 Instance 기반 LPU로 고효율 LLM 추론 서비스 구축 섬네일
71%

하이퍼엑셀(HyperAccel), Amazon EC2 F2 Instance 기반 LPU로 고효율 LLM 추론 서비스 구축

AWS faviconAWS·2026년 01월 09일