핵심 요약
넷플릭스가 생산 트래픽을 이용한 데이터 카나리 오케스트레이터 패턴으로 카탈로그 메타데이터의 품질 검증을 자동화하고, 10분 내 신속 탐지 및 데이터 게시 차단을 가능하게 하는 시스템을 구축했습니다.
구현 방법
- 전용 오케스트레이터 인스턴스와 Baseline/Canary 클러스터를 두고 새 카탈로그 버전을 검증하며 chaos 실험을 수행합니다
- Chaos 플랫폼 확장을 통해 커스텀 임계값, 멀티테넌트 테스트, Sticky Canaries, SPS를 주 신호로 사용하고, 회귀 시 즉시 중단합니다
- 생산 트래픽 연계 검증과 REST 엔드포인트를 통한 트랜스포머 서비스 연결로 엔드 투 엔드 검증 체인을 확보합니다
주요 결과
- 탐지 시간 2.5–4분으로 단축되며 10배 차이의 신호로 명확한 검증이 가능합니다
- 회귀 시 게시가 차단되고 10분 검증 윈도우로 고임팩트 데이터 손상을 방지합니다
