핵심 요약
올리브영의 QA 팀이 Datadog를 도입해 로그/APM, RUM 기반 모니터링과 Synthetics를 활용하여 이슈를 빠르게 식별하고 운영 환경에 알람을 연동했습니다.
주요 특징
- APM 로그로 이슈 위치를 식별하고 Slack 알람을 자동으로 연동
- 커스텀 로그 파이프라인으로 로그를 파싱해 key-value로 변환하고 대시보드에 반영
- RUM의 Error Tracking과 Sessions Explorer로 실사용 이슈를 추적 및 원인 파악
- Session Replay와 Synthetics를 통해 프런트 성능 및 배포 이슈를 선제 모니터링
적용 고려사항
- 비용 관리: 로그 수집 비율 관리 및 특정 사용자의 로그를 100% 수집하는 전략 등 비용 이슈 고려
- 파이프라인 규칙 설계의 정규식 및 파싱 로직의 유지보수성 확보
- 다수 서비스에 대한 알람 정책의 정리와 팀 간 협업 필요



