SageMaker AI로 해보는 GPT-OSS 추론 성능 테스트와 용량 산정

핵심 요약

AWS가 SageMaker AI에서 GPT-OSS 120B를 활용한 추론 성능 테스트와 GPU 용량 산정을 다루는 블로그를 공개했습니다. 프리필/디코드와 KV 캐시, 연속 배치, 페이지드 어텐션 등 최적화 기법과 vLLM 및 SGLang 벤치를 비교해 실무 인프라 설계에 필요한 인사이트를 제공합니다.

구현 방법

SageMaker AI에서 vLLM과 SGLang 가상환경 구성 및 설치
텐서 병렬 8, max-model-len 4096, gpu-memory-utilization 0.8 설정
200프롬프트 벤치로 엔드포인트 구동 및 성능 수치 확인

주요 결과

총 200프롬프트 성공, 입력 토큰 409,318개, 출력 토큰 TPS 259.92
평균 TTFT 924.48 ms, P99 TTFT 5223.02 ms, 총 토큰 처리량 1979.11 tok/s
피크 동시성 17건으로 벤치의 처리량 한계 파악

핵심 요약

구현 방법

SageMaker AI에서 vLLM과 SGLang 가상환경 구성 및 설치
텐서 병렬 8, max-model-len 4096, gpu-memory-utilization 0.8 설정
200프롬프트 벤치로 엔드포인트 구동 및 성능 수치 확인

주요 결과

총 200프롬프트 성공, 입력 토큰 409,318개, 출력 토큰 TPS 259.92
평균 TTFT 924.48 ms, P99 TTFT 5223.02 ms, 총 토큰 처리량 1979.11 tok/s
피크 동시성 17건으로 벤치의 처리량 한계 파악

SageMaker AI로 해보는 GPT-OSS 추론 성능 테스트와 용량 산정

AI 요약

핵심 요약

구현 방법

주요 결과

네오사피엔스의 AWS g6e 기반 LLM 추론 배치 워크로드 최적화 사례

T4 GPU 1장으로 일궈낸 올리브영의 Gemma 3 기반 sLLM 구축기

왓챠 추천 서비스 MLOps 적용기 Part1

SageMaker AI로 해보는 GPT-OSS 추론 성능 테스트와 용량 산정

AI 요약

핵심 요약

구현 방법

주요 결과

네오사피엔스의 AWS g6e 기반 LLM 추론 배치 워크로드 최적화 사례

T4 GPU 1장으로 일궈낸 올리브영의 Gemma 3 기반 sLLM 구축기

왓챠 추천 서비스 MLOps 적용기 Part1

AI 요약

핵심 요약

구현 방법

주요 결과

연관 피드

네오사피엔스의 AWS g6e 기반 LLM 추론 배치 워크로드 최적화 사례

T4 GPU 1장으로 일궈낸 올리브영의 Gemma 3 기반 sLLM 구축기

왓챠 추천 서비스 MLOps 적용기 Part1

AI 요약

핵심 요약

구현 방법

주요 결과

연관 피드

네오사피엔스의 AWS g6e 기반 LLM 추론 배치 워크로드 최적화 사례

T4 GPU 1장으로 일궈낸 올리브영의 Gemma 3 기반 sLLM 구축기

왓챠 추천 서비스 MLOps 적용기 Part1