핵심 요약
무신사 O4O 팀은 3개 서비스(sales-api, moss-api, mpos-api)에 27개 SLO와 54개 모니터를 설정하고, 배포 중 Error Budget을 자동으로 보호하는 시스템을 구축했습니다. 도입으로 배포 중 오탐 알림은 0건으로 감소했고, 비즈니스 실패는 즉시 탐지했습니다.
구현 방법
- APM error 기반 측정으로 성공 여부 판단
- 태그 기반으로 27개 SLO 관리 및 Datadog API 활용
- 90일 데이터 분석에 기반한 임계값 설정
- Burn Rate 알림 두 단계 구성(긴급/주의)
- Python으로 SLO Correction 자동 생성/종료, ArgoCD Hooks로 CI/CD와 연동
- AWS Secrets Manager로 API 키 보안 관리
주요 결과
- 오탐 알림 0건, 실제 비즈니스 실패 즉시 탐지
- 2주 집중 작업으로 27개 SLO + 54개 모니터 자동화 달성
- 배포 시 Correction 자동 생성/종료로 휴먼 에러 0%에 가까운 운영 자동화


