핵심 요약
레브잇은 올웨이즈의 MLOps 도입으로 모놀리식 아키텍처를 MS A로 전환하고 피처 스토어/벡터 DB/모델 레지스트리 기반의 엔드-투-엔드 파이프라인을 구축했습니다. 17GB Triton 이미지를 약 1GB로 경량화하고 5천만 건의 임베딩 추론을 병렬 처리하도록 최적화했습니다.
구현 방법
- Triton Inference Server로 모델 서빙 구성
- Feast로 오프라인/온라인 피처 저장소 구성
- Milvus 벡터 DB로 임베딩 검색
- MLflow로 모델 레지스트리 관리
- Airflow로 Training/Inference 파이프라인 자동화
주요 결과
- Triton 이미지 용량 17GB → 약 1GB 축소로 배포/확장성 개선
- 5천만 건의 임베딩 추론 병렬 처리로 처리 능력 향상
- HA 강화 및 운영 비용 절감



