핵심 요약
우아한형제들 SRE팀은 서비스 이상 탐지 시스템을 도입해 장애를 신속히 탐지하고 자동으로 전파하는 운영 프로세스를 구축했다.
구현 방법
- 과거 데이터의 중앙값 기반 예측으로 예측값(Prediction)과 실제값(Actual)을 비교하도록 했다
- 임계 값과 임계 도달 횟수로 경보를 제어하고 Near-RealTime 알림을 발송하도록 설정했다
- Slack 경보와 Opsgenie On-Call 자동 호출 및 장애 전파를 자동화했다
- 로그인 수, 주문 수, 결제 성공률 등의 실시간 지표를 모니터링했다
주요 결과
- 경보 정밀도 약 11배로 향상했다
- 장애 탐지율 약 70% 향상
- 장애 전파 시간 약 74% 단축
