홈 인기 피드 모든 블로그 모든 태그

홈 인기 피드 모든 블로그 모든 태그

왓챠 추천 서비스 MLOps 적용기 Part2 섬네일

왓챠 추천 서비스 MLOps 적용기 Part2

왓챠·AI/ML·

Kubernetes PyTorch MLOps TorchServe Argo

2024년 03월 06일0

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

왓챠는 TorchServe로 독립 추론 서버를 구축해 학습/서비스를 분리하고 CPU 최적화로 추론 속도와 안정성을 개선했습니다.

구현 방법

TorchServe로 다중 모델 추론 서버 구성; default_workers_per_model를 물리 코어 수와 같게 설정
ipex_enabled, cpu_launcher_enable로 CPU 최적화 및 물리 코어 고정; batch_size/batch_delay로 동적 배치 운용
캐싱 + 프로토콜 버퍼/메시지 팩으로 네트워크 비용 최소화
모델 경량화(pruning/quantization/지식 증류)로 속도 향상; 정확도 감소은 1% 미만으로 관리
배포 안정화: warm-up 및 프로파일링 비활성화
모니터링: Datadog 연동 및 대시보드로 서버 및 온라인 지표 모니터링

주요 결과

추론 속도 약 50% 향상; JNI 의존성 제거로 최신 PyTorch 업데이트 용이

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!

왓챠 추천 서비스 MLOps 적용기 Part1 섬네일

왓챠 추천 서비스 MLOps 적용기 Part1

왓챠·2024년 02월 28일

올웨이즈의 MLOps 도입기 섬네일

올웨이즈의 MLOps 도입기

레브잇·2025년 04월 22일

밑바닥부터 시작하는 추천시스템 with Kubeflow 섬네일

밑바닥부터 시작하는 추천시스템 with Kubeflow

KREAM·2025년 05월 28일