홈 인기 피드 모든 블로그 모든 태그

홈 인기 피드 모든 블로그 모든 태그

ML gpu model server 성능을 유지하며 cpu server로 전환한 경험 공유 섬네일

ML gpu model server 성능을 유지하며 cpu server로 전환한 경험 공유

Naver Place·AI/ML·

FastAPI Kubernetes PyTorch TorchServe Intel Extension for PyTorch

2023년 07월 13일1

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

Naver Place가 GPU 모델 서버의 성능을 유지하면서 CPU 서버로 전환해 연간 비용 약 4억원 절감 및 한국·일본에서 GPU 15대 절감 효과를 달성했습니다.

구현 방법

TorchServe 기반 CPU 인퍼런스 아키텍처로 전환하고 App Server(FastAPI)에서 전처리/후처리 수행
Traefik gateway mirroring으로 staging/production 간 트래픽 안전 검증
CPU 성능 최적화: 물리 코어에 맞춘 thread 수 조정 및 Intel ipex를 통한 socket pinning으로 GEMM 병목 제거
모델 경량화: Knowledge Distillation 도입 및 입력 해상도 축소 병행

주요 결과

GPU 15대 절감으로 연간 약 4억원 비용 절감
RPS 약 3배 이상 개선, ipex 도입으로 추가 개선
특정 KD 적용 모델에서 2.5rps→84rps로 대폭 개선

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!

왓챠 추천 서비스 MLOps 적용기 Part1 섬네일

왓챠 추천 서비스 MLOps 적용기 Part1

왓챠·2024년 02월 28일

왓챠 추천 서비스 MLOps 적용기 Part2 섬네일

왓챠 추천 서비스 MLOps 적용기 Part2

왓챠·2024년 03월 06일

대용량 트래픽을 견디는 서버 만들기 — Rust 기반 게이트웨이 구축 섬네일

대용량 트래픽을 견디는 서버 만들기 — Rust 기반 게이트웨이 구축

크리에이트립·2025년 04월 10일