Moait
홈인기 피드모든 블로그모든 태그
홈인기 피드모든 블로그모든 태그

우아한형제들이 장애를 놓치지 않고 탐지하는 방법

우아한형제들 favicon우아한형제들·DevOps·
MonitoringSREIncident ManagementService Anomaly DetectionAlerting
2025년 12월 02일9

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

우아한형제들 SRE팀은 서비스 이상 탐지 시스템을 도입해 장애를 신속히 탐지하고 자동으로 전파하는 운영 프로세스를 구축했다.

구현 방법

  • 과거 데이터의 중앙값 기반 예측으로 예측값(Prediction)과 실제값(Actual)을 비교하도록 했다
  • 임계 값과 임계 도달 횟수로 경보를 제어하고 Near-RealTime 알림을 발송하도록 설정했다
  • Slack 경보와 Opsgenie On-Call 자동 호출 및 장애 전파를 자동화했다
  • 로그인 수, 주문 수, 결제 성공률 등의 실시간 지표를 모니터링했다

주요 결과

  • 경보 정밀도 약 11배로 향상했다
  • 장애 탐지율 약 70% 향상
  • 장애 전파 시간 약 74% 단축

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!
장애 대응의 성패를 가르는 First Action: 우아한형제들의 장애 관리 라이프사이클 섬네일
72%

장애 대응의 성패를 가르는 First Action: 우아한형제들의 장애 관리 라이프사이클

우아한형제들 favicon우아한형제들·2026년 02월 03일
No Image
67%

우리는 코드처럼 문화도 리팩토링한다

우아한형제들 favicon우아한형제들·2025년 12월 10일
No Image
66%

장시간 비동기 작업, Kafka 대신 RDB 기반 Task Queue로 해결하기

우아한형제들 favicon우아한형제들·2025년 11월 25일