핵심 요약
왓챠는 TorchServe로 독립 추론 서버를 구축해 학습/서비스를 분리하고 CPU 최적화로 추론 속도와 안정성을 개선했습니다.
구현 방법
- TorchServe로 다중 모델 추론 서버 구성; default_workers_per_model를 물리 코어 수와 같게 설정
- ipex_enabled, cpu_launcher_enable로 CPU 최적화 및 물리 코어 고정; batch_size/batch_delay로 동적 배치 운용
- 캐싱 + 프로토콜 버퍼/메시지 팩으로 네트워크 비용 최소화
- 모델 경량화(pruning/quantization/지식 증류)로 속도 향상; 정확도 감소은 1% 미만으로 관리
- 배포 안정화: warm-up 및 프로파일링 비활성화
- 모니터링: Datadog 연동 및 대시보드로 서버 및 온라인 지표 모니터링
주요 결과
- 추론 속도 약 50% 향상; JNI 의존성 제거로 최신 PyTorch 업데이트 용이



