핵심 요약
Microsoft Developer가 Azure Cosmos DB의 고가용성 설계와 실패 대응 전략을 다루는 글을 공개했습니다.
구현 방법
- 컨트롤 플레인: 지역화로 장애 확산 차단, 홈 로케이션 관리 및 보조 리전 복제.
- 데이터 플레인: DB 계정 DNS 엔드포인트 고정, Direct/Gateway 모드로 트래픽 분산.
- 다지역 구성: 파티션 3개 이상 복제, AZ 배치, Active-Active 및 CAS-Paxos 기반 Per-Partition 자동 페일오버.
- SDK/제어: 재시도 및 페일오버 정책을 클라이언트가 자동 적용.
주요 결과
- Active-Active에서 RTO 0 달성, 다지역 쓰기 가능.
- 지역 독립적 실패로 파급 효과 최소화.
- DNS 업데이트 거의 필요 없음.



