핵심 요약
무신사가 이구위크 기간 Redis 대역폭 초과 이슈를 네트워크 관점에서 원인 파악하고, 캐시 계층화 및 모니터링 강화로 재발 방지 체계를 마련했습니다.
구현 방법
- 네트워크 원인: Baseline 0.937Gbps에서 Burst 크레딧 고갈로 19시~20:58에 Throttling 시작
- 노드 스케일 업: cache.r7g.large → cache.r7g.2xlarge로 대역폭 1.875Gbps 확보
- 캐시 계층화 도입: 로컬 캐시(Caffeine) → Redis(Remote Cache) → DB
주요 결과
- 장애 당일 해소 및 원인 파악 시간 단축
- Redis 명령어 호출 감소 및 Outgoing Bytes 감소 확인
- 모니터링 강화: Datadog 경고 연동
- 향후: Snappy 압축 + protobuf 도입으로 데이터 용량 약 73% 감소 가능성 추정


