Moait
홈인기 피드모든 블로그모든 태그
홈인기 피드모든 블로그모든 태그
ML gpu model server 성능을 유지하며 cpu server로 전환한 경험 공유 섬네일

ML gpu model server 성능을 유지하며 cpu server로 전환한 경험 공유

Naver Place faviconNaver Place·AI/ML·
FastAPIKubernetesPyTorchTorchServeIntel Extension for PyTorch
2023년 07월 13일1

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

Naver Place가 GPU 모델 서버의 성능을 유지하면서 CPU 서버로 전환해 연간 비용 약 4억원 절감 및 한국·일본에서 GPU 15대 절감 효과를 달성했습니다.

구현 방법

  • TorchServe 기반 CPU 인퍼런스 아키텍처로 전환하고 App Server(FastAPI)에서 전처리/후처리 수행
  • Traefik gateway mirroring으로 staging/production 간 트래픽 안전 검증
  • CPU 성능 최적화: 물리 코어에 맞춘 thread 수 조정 및 Intel ipex를 통한 socket pinning으로 GEMM 병목 제거
  • 모델 경량화: Knowledge Distillation 도입 및 입력 해상도 축소 병행

주요 결과

  • GPU 15대 절감으로 연간 약 4억원 비용 절감
  • RPS 약 3배 이상 개선, ipex 도입으로 추가 개선
  • 특정 KD 적용 모델에서 2.5rps→84rps로 대폭 개선

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!
왓챠 추천 서비스 MLOps 적용기 Part1 섬네일
74%

왓챠 추천 서비스 MLOps 적용기 Part1

왓챠 favicon왓챠·2024년 02월 28일
왓챠 추천 서비스 MLOps 적용기 Part2 섬네일
72%

왓챠 추천 서비스 MLOps 적용기 Part2

왓챠 favicon왓챠·2024년 03월 06일
No Image
71%

우리는 달에 가기로 했습니다. - Hybrid인프라부터 네트워크 최적화까지, 무신사 AI Infra구축기

무신사 favicon무신사·2025년 12월 15일