핵심 요약
올리브영이 에러 로그 기반 모니터링을 DLQ 재처리 도입, Datadog Workflow 자동 분석, QA 자동화로 진화시키며 알림 피로를 줄이고 신속한 문제 해결 체계를 구축했습니다.
주요 경험
- Phase 1~3의 단계적 개선으로 온콜 매핑과 실시간 진단 체계가 갖춰졌습니다.
- DLQ 재처리 도입으로 재시도 실패 건을 자동으로 분리하고 수동 개입을 대폭 감소시켰습니다.
- Datadog Workflow와 Bits AI를 활용한 자동 분석이 Slack에 진단 요약을 즉시 전달합니다.
얻은 인사이트
- 모니터링의 목표는 알림 수가 아니라 사람 개입을 최소화하는 것임을 재확인했습니다.
- 일시적 오류는 DLQ 재처리와 자동 분석으로 걸러져 실제 이슈에 집중할 수 있게 되었습니다.
- 데이터 흐름 확대에 따라 자동화 포인트를 계속 확장하는 것이 중요하다는 교훈을 얻었습니다.



