핵심 요약
올리브영이 Host Level 카오스 엔지니어링 테스트를 통해 인프라 장애가 고객 경험에 미치는 영향을 확인하고, 9개 버그를 발견해 4개를 즉시 개선했습니다. 5분 TTL 환경에서 장애 감지/복구 체계를 강화하고, 데이터 정합성 보장을 위한 자동화 프로세스와 API를 도입했습니다.
주요 경험
- 장애 감지 알림 체계로 즉시 인지·대응이 가능해졌습니다.
- 이중화와 백업 경로로 자동 복구를 강화했습니다.
- 복구 후 데이터 정합성 검증 및 재동기화 프로세스를 도입했습니다.
얻은 인사이트
- 고객 관점의 경험은 로그상 정상이어도 장애일 수 있음을 확인했습니다.
- 장애를 5분 이내에 감지·복구하는 기준이 확립됐습니다.
- 데이터 정합성 보강의 중요성과 재처리 자동화의 필요성을 확인했습니다.



