핵심 요약
코인원이 Prometheus를 도입해 Kubernetes 기반 인프라의 모니터링 체계를 구축하고 운영한 경험을 공유합니다.
주요 경험
- Helm 차트로 Prometheus를 설치하고 alertmanager, kube-state-metrics, node-exporter, pushgateway, server Pod를 일괄 생성하도록 구성
- OS 및 타사 메트릭 수집을 위한 다양한 exporter를 활용
- 1분 주기의 데이터 수집과 약 280개 Pod 규모에서도 데이터 양이 크게 증가하지 않는 안정성을 확인
- 초기 보관 주기를 15일로 두었다가 PV 삭제 이슈를 막기 위해 Reclaim Policy를 Retain으로 변경
얻은 인사이트
- Grafana 연동으로 현황 파악이 쉽고 운영 효율이 향상
- 데이터 누적으로 리소스 사용량과 임계치 기반 운영 최적화 및 이상징후 탐지가 가능
- 3개월 간의 운영 경험을 통해 컨테이너 기반 모니터링의 안정성과 학습 필요성을 확인

