핵심 요약
펫프렌즈가 Kafka에서 S3로 실시간 데이터 수집 파이프라인을 설계·구축했습니다.
구현 방법
- CDC를 Kafka로 발행하고 컨슈머가 Parquet으로 변환해 S3에 저장
- 컨슈머를 직접 개발해 세부 로직과 Flush 주기(시간/크기) 제어 구현
- At-least-once 보장 및 리밸런스 시 오프셋 커밋 관리
- Slack/OpenSearch 기반 운영 모니터링과 Airflow 메타데이터 DAG 운영
주요 결과
- 운영 부담 감소: DB 트리거/로그 테이블 스키마 변경 필요 없음
- 데이터 레이크 기반 수집으로 확장성↑, 광고 이벤트/주문 이벤트 등 확장 가능
- 누락 오프셋 추적과 안정성 확보를 위한 메타데이터 기록
- Iceberg 도입 등 향후 아키텍처 확장 계획



