핵심 요약
KREAM은 Two-Tower 모델 도입으로 개인화 추천 품질과 서빙 속도를 개선했고, In-Batch Sampled SoftMax와 LogQ Correction으로 편향성을 줄였습니다.
구현 방법
- TensorFlow + tensorflow-recommenders로 Two-Tower 아키텍처 구현
- Query Encoder(사용자)와 Item Encoder(아이템)로 임베딩 학습
- In-Batch Sampled SoftMax + LogQ Correction으로 손실 보정
- ScaNN으로 빠른 후보 아이템 인덱싱
- Kubeflow Pipelines로 MLOps 파이프라인 관리
주요 결과
- 사용자 고유 클릭 수가 크게 증가
- LogQ Correction 미적용 시 10-20% 성능 차이 관찰, 보정 필요성 확인
- ScaNN 서빙으로 응답 시간 향상
- 재현성과 운영 효율성 향상


