핵심 요약
데브시스터즈가 Datadog를 활용해 실시간 모니터링과 APM, SLO 관리, 쿠버네티스 운영 노하우를 공유하며 개발 문화와 운영 체계를 강화했습니다.
주요 경험
- 게임 개발팀: 실시간 지표(RPS, 매출 커스텀 메트릭)로 트래픽 대응, 장애 시나리오를 위한 커스텀 메트릭과 알람, APM으로 성능 분석
- 플랫폼 팀: 서비스 맵으로 의존성 파악, 서드파티 API 모니터링 및 데이터독 활용
- 데브옵스 팀: CPU/메모리/네트워크 모니터링으로 자원 효율화, 쿠버네티스 관리, SLO 관리 및 알람 가이드라인 수립, Slack 연동 Incident 관리
얻은 인사이트
- SLO를 통한 안정성 균형은 비용이 따른다는 점을 부서 간 공유하고 합의하는 과정이 필요
- 데이터독의 다목적 도구로 운영 복잡성과 응답 속도 개선 가능
- 인프라를 코드로 관리하는 원칙과 자체 CD 도구 도입으로 배포 및 테스트 효율이 향상
