핵심 요약
당근은 Job 워크로드용 EKS 노드 그룹에 자동 스케일링을 도입해 Bin-packing으로 스케일인 효율을 높이고, PodAffinity와 Kyverno를 활용해 실행 중인 작업의 강제 종료를 방지했습니다.
구현 방법
- Job 전용 노드 그룹 분리 및 maxPods 60 설정
- Bin-packing 기반 PodAffinity로 특정 노드에 Job Pods 집중
- Kyverno로 group: job 레이블 및 do-not-disrupt 애노테이션 적용
주요 결과
- Alpha 환경에서 자동 스케일링 성공
- Production에서 kubelet overload, 이미지 풀 실패, EBS 쓰로틀링, CNI 지연 등 이슈 확인
- 정책 도입으로 실행 중단 방지 및 자원 운영 안정성 검토 중

