Moait
홈인기 피드모든 블로그모든 태그
홈인기 피드모든 블로그모든 태그
Kafka에서 S3로 실시간 데이터 수집 파이프라인 설계와 구축기 섬네일

Kafka에서 S3로 실시간 데이터 수집 파이프라인 설계와 구축기

펫프렌즈 favicon펫프렌즈·Data·
PythonKafkaDebeziumS3MSK
2025년 11월 07일11

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

펫프렌즈가 Kafka에서 S3로 실시간 데이터 수집 파이프라인을 설계·구축했습니다.

구현 방법

  • CDC를 Kafka로 발행하고 컨슈머가 Parquet으로 변환해 S3에 저장
  • 컨슈머를 직접 개발해 세부 로직과 Flush 주기(시간/크기) 제어 구현
  • At-least-once 보장 및 리밸런스 시 오프셋 커밋 관리
  • Slack/OpenSearch 기반 운영 모니터링과 Airflow 메타데이터 DAG 운영

주요 결과

  • 운영 부담 감소: DB 트리거/로그 테이블 스키마 변경 필요 없음
  • 데이터 레이크 기반 수집으로 확장성↑, 광고 이벤트/주문 이벤트 등 확장 가능
  • 누락 오프셋 추적과 안정성 확보를 위한 메타데이터 기록
  • Iceberg 도입 등 향후 아키텍처 확장 계획

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!
로그 파이프라인 개선기 - 기존 파이프라인 문제 정의 및 해결 방안 적용 섬네일
75%

로그 파이프라인 개선기 - 기존 파이프라인 문제 정의 및 해결 방안 적용

쏘카 favicon쏘카·2025년 02월 25일
토스증권의 수천 개 실시간 데이터 파이프라인 운영방법 #1: Visualize Lineage 섬네일
74%

토스증권의 수천 개 실시간 데이터 파이프라인 운영방법 #1: Visualize Lineage

토스 favicon토스·2025년 08월 11일
FMS(Fleet Management System) 주행이벤트 파이프라인 개선기 섬네일
74%

FMS(Fleet Management System) 주행이벤트 파이프라인 개선기

쏘카 favicon쏘카·2024년 06월 11일