핵심 요약
여기어때가 Right-Sizing으로 Kubernetes 리소스 기준을 정의하고, P95 기반 분석과 컴포넌트별 버퍼 정책으로 Observability 인프라의 자원을 합리화했습니다.
구현 방법
- 관측 인프라 LGTM 스택(Loki/Mimir/Tempo)으로 다수 서비스의 메트릭을 수집 관리
- 지표로 container_memory_working_set_bytes, container_cpu_usage_seconds_total, kube_pod_container_resource_requests를 지속적 적재
- 데이터 계측 기간 1주, 샘플링 간격 5분
- P95 기반으로 적정 리퀘스트를 역산하고 목표 사용률 70~80%로 버퍼를 컴포넌트별 차등 적용
- 쿼리 예시: Memory P95 대비 Request 비율, CPU 사용률과 Throttling 연계 분석
- 적용 우선순위: Stateless → Stateful 읽기 → Stateful 쓰기 → 버스트
주요 결과
- 리소스 절감 및 가용성 확보, OOMKill/Throttling 증가 없이 안정적으로 운영

