Moait
홈인기 피드모든 블로그모든 태그
홈인기 피드모든 블로그모든 태그
서비스의 건강을 수치화 할 수 있을까? — SLI/SLO 섬네일

서비스의 건강을 수치화 할 수 있을까? — SLI/SLO

무신사 favicon무신사·DevOps·
PrometheusDatadogSLISLOGrafana
2025년 08월 18일6

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

무신사 29CM 팀은 SLI와 SLO를 도입해 서비스 건강성을 수치로 측정하고 운영 프로세스를 개선했습니다.

주요 경험

  • SLI/SLO를 도입해 API 단위(주문/결제)와 전시 시스템의 구좌별 지표를 설정하고 모니터링했다.
  • Datadog, Prometheus + Grafana를 활용해 실시간 대시보드와 SLO 관리, 에러 버짓 알림 체계를 운영했다.
  • 주 단위 리뷰로 SLI/SLO 달성률과 장애를 점검하고 MTTD/MTTA 개선을 위한 티켓 기반 원인 파악과 해결 프로세스를 확립했다.

얻은 인사이트

  • 수치 기반 운영이 사용자 경험 품질 관리의 핵심임을 확인했다.
  • 에러 버짓 관리로 알림 과잉과 운영 피로도가 감소했다.
  • 원인 파악과 개선 프로세스의 문서화로 재발 방지가 강화됐다.

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!
29CM 에서 무신사머니 사용하기 섬네일
75%

29CM 에서 무신사머니 사용하기

무신사 favicon무신사·2025년 10월 31일
불편함에서 시작된 효율화: QA 리포트 자동화하기 섬네일
75%

불편함에서 시작된 효율화: QA 리포트 자동화하기

무신사 favicon무신사·2025년 11월 09일
LangChain 기반 지능형 자동화 도입기 섬네일
75%

LangChain 기반 지능형 자동화 도입기

무신사 favicon무신사·2025년 08월 03일