홈 인기 피드 모든 블로그 모든 태그

홈 인기 피드 모든 블로그 모든 태그

레거시 GPU에 날개 달기: 극한의 서빙 최적화 가이드

NAVER D2·AI/ML·

SPLADE BERT FlashTokenizer Inference Optimization Real Time Serving

2025년 07월 24일3

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

NAVER D2는 레거시 GPU에서의 실시간 서빙을 위한 SPLADE(BERT 기반) 모델 추론 최적화와 FlashTokenizer의 성능 강화 배경을 NAVER ENGINEERING DAY 2025 세션으로 공유했습니다.

구현 방법

SPLADE 기반 대규모 실시간 서빙 최적화 전략과 아키텍처 흐름
FlashTokenizer 개발 배경과 성능 이점 소개
Preprocess/Postprocess/Inference(advanced) 단계별 최적화 포인트

주요 결과

구체적 수치가 공개되지는 않았으나 설계 방향과 적용 포인트를 제시

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!

Iceberg Low-Latency Queries with Materialized Views (feat. 실시간 거래 리포트)

NAVER D2·2025년 12월 01일

[DAN25] 기술세션 영상이 모두 공개되었습니다.

NAVER D2·2025년 11월 28일

AI 에이전트가 코드를 실험하고 개선하는 법

NAVER D2·2026년 06월 01일