핵심 요약
Netflix는 실시간 분산 그래프(RDG)를 구축하기 위해 Kafka- Flink 기반의 인제스트-처리 파이프라인으로 데이터를 흘려보내며, 토픽당 최대 약 100만 건/초의 이벤트를 처리하고 노드/엣지 합계 500만 건/초 이상을 Data Mesh에 저장합니다.
구현 방법
- Kafka를 인제스트 백본으로 사용, Avro 포맷과 내부 스키마 레지스트리 관리
- Flink로 필터링/프로젝션, 메타데이터 보강, 그래프 프리미티브로의 변환
- 중복 제거 및 윈도우 기반 버퍼링으로 처리량 감소 및 정확성 향상
- 노드/엣지 유형별 1:1 매핑으로 운영 단순화
- Data Mesh에 총 노드+엣지 5백만 건/초 이상 퍼블리시, Iceberg에 백필 저장으로 지속성 확보
주요 결과
- RDG가 실시간으로 업데이트되어 최신 상호작용 반영
- 모듈화된 작업으로 운영 및 튜닝 용이
- 확장성 덕분에 신규 관계 추가가 수월