핵심 요약
요기요가 Locust 부하 테스트와 Istio/FIS 장애 주입으로 500ms와 250ms Pod Latency가 서비스에 미친 영향을 분석하고 Redis 연결 이슈 및 UH/503를 확인해 개선 포인트를 도출했습니다.
주요 경험
- 500ms 실험에서 Membership RPS가 350에서 거의 0으로 수렴했고 CPU는 0.01–0.03 core로 감소, P99 최대 30초까지 치솟았습니다.
- 250ms 실험에서 RPS 약 17로 회복했고 중앙값 응답 약 2.7초로 안정화되었으며, Happy Path 테스트는 통과했습니다.
- Istio UH 로그로 다수의 503 응답이 발생했고, 간헐적으로는 아주 긴 응답이 나타나 트래픽 흐름 이슈를 확인했습니다.
얻은 인사이트
- Redisson 에러 예외처리 추가로 원인 파악이 직관적으로 가능해졌습니다.
- 멤버십 장애 시 비동기 처리로 주문 페이지 접근성을 유지하는 방향이 필요합니다.
- 헬스체크 실패의 원인은 Redis 큐 점유로 확인되어 큐 관리 로직 강화가 필요합니다.

