Moait
홈인기 피드모든 블로그모든 태그
홈인기 피드모든 블로그모든 태그

레거시 GPU에 날개 달기: 극한의 서빙 최적화 가이드

NAVER D2 faviconNAVER D2·AI/ML·
SPLADEBERTFlashTokenizerInference OptimizationReal Time Serving
2025년 07월 24일2

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

NAVER D2는 레거시 GPU에서의 실시간 서빙을 위한 SPLADE(BERT 기반) 모델 추론 최적화와 FlashTokenizer의 성능 강화 배경을 NAVER ENGINEERING DAY 2025 세션으로 공유했습니다.

구현 방법

  • SPLADE 기반 대규모 실시간 서빙 최적화 전략과 아키텍처 흐름
  • FlashTokenizer 개발 배경과 성능 이점 소개
  • Preprocess/Postprocess/Inference(advanced) 단계별 최적화 포인트

주요 결과

  • 구체적 수치가 공개되지는 않았으나 설계 방향과 적용 포인트를 제시

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!
No Image
73%

Ray를 활용한 GPU Util 100% MLOps: 배치처리부터 모델 서빙까지

NAVER D2 faviconNAVER D2·2025년 07월 15일
No Image
72%

Kubernetes GPU 클러스터에서 AI 서비스 오토스케일링하기

NAVER D2 faviconNAVER D2·2025년 07월 11일
No Image
71%

AI가 지켜보는 데이터 파이프라인: 노이즈 제거부터 장애 대응까지

NAVER D2 faviconNAVER D2·2025년 07월 02일