핵심 요약
NAVER D2는 레거시 GPU에서의 실시간 서빙을 위한 SPLADE(BERT 기반) 모델 추론 최적화와 FlashTokenizer의 성능 강화 배경을 NAVER ENGINEERING DAY 2025 세션으로 공유했습니다.
구현 방법
- SPLADE 기반 대규모 실시간 서빙 최적화 전략과 아키텍처 흐름
- FlashTokenizer 개발 배경과 성능 이점 소개
- Preprocess/Postprocess/Inference(advanced) 단계별 최적화 포인트
주요 결과
- 구체적 수치가 공개되지는 않았으나 설계 방향과 적용 포인트를 제시