핵심 요약
NAVER D2의 세션에서 Ray를 활용해 GPU Util 100%를 달성하는 배치처리와 모델 서빙 아키텍처를 제시합니다.
구현 방법
- Ray Core/데이터를 이용한 병렬처리 설계
- Ray Serve로 배치+서빙 자동화, vLLM 기반 LLM 추론 파이프라인 구성
- 내부 모델 레지스트리 연동 및 GPU 클러스터 운영 자동화
주요 결과
- GPU Util 100% 달성으로 자원 활용 극대화
- 고성능 서빙 API 설계·배포·운영의 일관성 확보
- 확장 가능한 파이프라인으로 서비스 품질 및 유지보수성 향상