핵심 요약
데브시스터즈가 AWS 도쿄 AZ 장애를 분석하고 CockroachDB 기반 다AZ 배포와 Locality 설정으로 데이터 손실 없이 문제를 해결한 사례를 공유합니다.
구현 방법
- Kubernetes 위에 CockroachDB 배포, Helm Chart로 관리
- AZ별 Locality와 Follow-the-Workload로 레플리카 분배 안정화
- Replication Factor 7로 내구성 강화
- 54대 생존 노드로 백업/복구 시도, 필요 시 unsafe-remove-dead-replicas 활용
주요 결과
- 데이터 유실 없이 유저 데이터 복구
- 다AZ 운영으로 재발 방지 및 배포 체계 강화
