Moait
홈인기 피드모든 블로그모든 태그
홈인기 피드모든 블로그모든 태그
ML gpu model server 성능을 유지하며 cpu server로 전환한 경험 공유 섬네일

ML gpu model server 성능을 유지하며 cpu server로 전환한 경험 공유

Naver Place faviconNaver Place·AI/ML·
FastAPIKubernetesPyTorchTorchServeIntel Extension for PyTorch
2023년 07월 13일1

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

Naver Place가 GPU 모델 서버의 성능을 유지하면서 CPU 서버로 전환해 연간 비용 약 4억원 절감 및 한국·일본에서 GPU 15대 절감 효과를 달성했습니다.

구현 방법

  • TorchServe 기반 CPU 인퍼런스 아키텍처로 전환하고 App Server(FastAPI)에서 전처리/후처리 수행
  • Traefik gateway mirroring으로 staging/production 간 트래픽 안전 검증
  • CPU 성능 최적화: 물리 코어에 맞춘 thread 수 조정 및 Intel ipex를 통한 socket pinning으로 GEMM 병목 제거
  • 모델 경량화: Knowledge Distillation 도입 및 입력 해상도 축소 병행

주요 결과

  • GPU 15대 절감으로 연간 약 4억원 비용 절감
  • RPS 약 3배 이상 개선, ipex 도입으로 추가 개선
  • 특정 KD 적용 모델에서 2.5rps→84rps로 대폭 개선

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!
왓챠 추천 서비스 MLOps 적용기 Part1 섬네일
74%

왓챠 추천 서비스 MLOps 적용기 Part1

왓챠 favicon왓챠·2024년 02월 28일
왓챠 추천 서비스 MLOps 적용기 Part2 섬네일
72%

왓챠 추천 서비스 MLOps 적용기 Part2

왓챠 favicon왓챠·2024년 03월 06일
대용량 트래픽을 견디는 서버 만들기 — Rust 기반 게이트웨이 구축 섬네일
70%

대용량 트래픽을 견디는 서버 만들기 — Rust 기반 게이트웨이 구축

크리에이트립 favicon크리에이트립·2025년 04월 10일