핵심 요약
우아한형제들이 First Action의 중요성과 장애 관리 라이프사이클 정의 및 메트릭 체계를 도입해 장애 대응의 속도와 고객 영향 최소화를 시스템적으로 개선한 경험을 공유합니다.
주요 경험
- 롤백/핫픽스 등 기계적 완화 조치를 First Action으로 우선 실행하는 기준을 제시해 장애 영향 최소화를 가능하게 했다.
- 장애 대응 흐름을 7단계로 정의하고 각 단계에 시간 기반 메트릭을 연결해 First Action 실행 시점과 이후 영향을 한 흐름에서 관찰할 수 있도록 구조를 만들었다.
- 메트릭을 운영 개선의 원천으로 삼아 회고를 같은 언어로 수행하고, 데이터 중심의 Observability와 자동화를 향한 AIOps 확장을 준비하고 있다.
얻은 인사이트
- 장애 대응은 개인의 역량이 아니라 시스템과 프로세스에 의해 결정돼야 한다는 교훈을 얻었다.
- First Action의 속도와 효과를 연결하는 메트릭 체계가 운영 개선의 선순환을 촉진한다는 인사이트를 얻었다.
- 데이터 기반의 Observability와 점진적 자동화(AIOps) 확장 가능성을 확인했다.


