Moait
홈인기 피드모든 블로그모든 태그
홈인기 피드모든 블로그모든 태그

How and Why Netflix Built a Real-Time Distributed Graph: Part 1 — Ingesting and Processing Data…

넷플릭스 favicon넷플릭스·Data·
Apache KafkaApache FlinkApache IcebergData Mesh
2025년 10월 17일5

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

Netflix는 실시간 분산 그래프(RDG)를 구축하기 위해 Kafka- Flink 기반의 인제스트-처리 파이프라인으로 데이터를 흘려보내며, 토픽당 최대 약 100만 건/초의 이벤트를 처리하고 노드/엣지 합계 500만 건/초 이상을 Data Mesh에 저장합니다.

구현 방법

  • Kafka를 인제스트 백본으로 사용, Avro 포맷과 내부 스키마 레지스트리 관리
  • Flink로 필터링/프로젝션, 메타데이터 보강, 그래프 프리미티브로의 변환
  • 중복 제거 및 윈도우 기반 버퍼링으로 처리량 감소 및 정확성 향상
  • 노드/엣지 유형별 1:1 매핑으로 운영 단순화
  • Data Mesh에 총 노드+엣지 5백만 건/초 이상 퍼블리시, Iceberg에 백필 저장으로 지속성 확보

주요 결과

  • RDG가 실시간으로 업데이트되어 최신 상호작용 반영
  • 모듈화된 작업으로 운영 및 튜닝 용이
  • 확장성 덕분에 신규 관계 추가가 수월

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!
No Image
73%

Behind the Streams: Real-Time Recommendations for Live Events

넷플릭스 favicon넷플릭스·2025년 10월 21일
No Image
70%

Building a Resilient Data Platform with Write-Ahead Log at Netflix

넷플릭스 favicon넷플릭스·2025년 09월 26일
No Image
70%

Behind the Streams: Live at Netflix. Part 1

넷플릭스 favicon넷플릭스·2025년 07월 15일