핵심 요약
넷플릭스가 Media ML Data Engineering을 도입하고 미디어 자산과 메타데이터를 중앙화하는 Media Data Lake를 구축하여 멀티모달 데이터를 ML 연구 및 파이프라인에 활용 가능하게 했다.
구현 방법
- Media Data Lake를 중심으로 자산과 메타데이터를 수집·저장·카탈로그화하고 파이프라인을 표준화
- 멀티모달 데이터 모델(비디오/오디오/텍스트)과 벡터 임베딩을 포함한 Media Table 설계
- Data API와 UI를 통해 연구자 및 데이터 과학자의 탐색·실험 지원
- LanceDB를 이용한 벡터 검색과 실시간·대규모 배치 워크플로우 연계 아키텍처
주요 결과
- 연구자/데이터 사이언티스트의 자산 접근성과 실험 속도 향상 기대
- 표준화된 데이터 모델과 벡터 검색으로 재사용성과 생산성 증가 기대