핵심 요약
올리브영의 SCM 스쿼드가 OMS 프로젝트에서 AWS MSK 기반 Kafka 도입으로 중복/유실 문제를 해결하고, 30여 개 토픽과 DLQ 운영으로 처리량을 3배에서 최대 45배까지 끌어올렸습니다.
주요 경험
- acks=all, enable.idempotence=true로 멱등성과 신뢰성 확보( max.in.flight.requests.per.connection 5 이하)
- CooperativeSticky 파티션 전략 도입으로 3대 브로커, replication factor 3, min.insync.replicas 2 구성
- DLQ 백업을 Firehose→S3→Lambda로 자동화하고 Slack 알림으로 상태를 관리
얻은 인사이트
- 멱등성+재시도로 중복/유실 방지가 핵심
- 파티션 재할당의 안정성이 대규모 배포 성능에 직결
- MSK 보안패치 기간에도 데이터 손실 없이 운용 가능



