핵심 요약
올라핀테크가 Datadog를 떠나 Grafana LGTM 스택으로 모니터링 체계를 재구축하고 월 약 1,500달러 수준의 비용을 절감한 경험을 공유합니다.
주요 경험
- OpenTelemetry로 메트릭을 수집해 Prometheus에 저장하고 Loki로 로그를 수집하는 LGTM 아키텍처를 구현
- Alertmanager로 임계치 알림이 Slack과 PagerDuty로 전달되도록 알림 파이프라인 구성
- 노드 스펙 최적화와 Thanos 연동으로 장기 지표 보존 체계 확보
얻은 인사이트
- 오픈소스 모니터링으로도 충분한 기능성과 유연성 확보
- 지표 기반으로 리소스 낭비와 OOM 이슈를 식별하고 운영 정책을 정교화
- Thanos 도입은 장기 보존과 확장성에 유익


