핵심 요약
SSG.COM은 카나리 배포 도입으로 쓱데이 기간 트래픽 급증 시 빠른 탐지와 안전한 롤백을 달성했다.
주요 경험
- TA 가이드로 카나리 배포를 도입하고 일부 파드에 먼저 배포, 데이터 누락 이슈를 100건 중 1~2건으로 포착해 롤백했다.
- 가상 스레드 도입 후 레이턴시 증가를 Datadog로 분석, Thread Pinning 의심으로 tracePinnedThreads 옵션을 점검했다.
- 카나리 배포는 A/B 테스트와 점진적 트래픽 전환에 유용하다고 판단했다.
얻은 인사이트
- 소수 배포의 위험 관리가 대형 사고를 예방했다.
- 10% 수준의 배포가 문제 확산 방지에 효과적임을 확인했다.
- 컨피그 기반 전환의 한계와 캐시 키 관리의 중요성을 확인했다.

