핵심 요약
인프랩이 EKS Bottlerocket 환경에서 DCGM 라이브러리 누락으로 AcceleratedHardwareReady가 False가 되어 GPU 노드 교체가 반복되는 문제를 분석하고 원인과 대응책을 도출했습니다. 최종적으로 Node Auto-Repair를 비활성화하는 해결책을 적용했습니다.
구현 방법
- DCGM 라이브러리 누락 여부와 오류 로그 확인
- Karpenter 설정 점검: 초기 nodeRepair: true에서 비활성화로 변경
- 안정화 확인 및 노드 교체 루프 감소 확인
주요 결과
- Node Auto-Repair 비활성화로 무한 교체 루프 중단
- GPU 워크로드 재배치 안정성 개선에 기여

