핵심 요약
NAVER D2가 Kubernetes 기반 LLM 서빙에서 KV Cache 인지 라우팅, Prefix Cache, 분산 멀티노드 서빙 등의 최적화 기술을 도입하는 과정과, Istio 서비스 메쉬, 스케줄러, Pod 보호 정책 간의 충돌을 진단하고 해결한 사례를 공개했습니다.
구현 방법
- GPU 워크로드를 운영하는 플랫폼 엔지니어가 LLM 서빙 인프라를 직접 구축·운영
- KV Cache 인지 라우팅, Prefix Cache, 분산 멀티노드 서빙 등의 최적화 기법을 Kubernetes 프로덕션에 도입
- Istio 서비스 메쉬, 스케줄러, Pod 보호 정책과의 충돌을 실전에서 진단하고 해결
- 운영·모니터링 체계 수립으로 추론 성능 관리
주요 결과
- 문제 상황의 진단과 해결으로 운영 안정성 및 성능 관리 체계가 개선
- 향후 확장성 고려 및 추가 최적화 여지가 남아 있음