핵심 요약
월급쟁이부자들이 레거시 R 기반 데이터 파이프라인의 한계를 극복하고 AWS와 GCP를 연결한 모던 데이터 파이프라인으로 자동화와 비용 최적화를 달성했습니다.
구현 방법
- AWS Aurora RDS → AWS DMS → AWS S3(Parquet + gzip)
- S3 → GCS로 Storage Transfer Service를 이용한 데이터 전송
- GCS → BigQuery 적재 및 Dataform(SQLX) 기반 가공(베이스/마트 계층)
- Lambda, EventBridge, Cloud Run의 이벤트 기반 자동화로 전체 흐름 자동화
- 중간 저장소 도입으로 부하 분산 및 비용 최적화
- GitHub 기반 리뷰/릴리즈로 로직 관리 및 변경 이력 유지
주요 결과
- 레거시 대비 실행 시간 3시간 이상에서 30분 이내로 단축
- 로그 기반 추적으로 디버깅 용이 및 운영 안정성 향상
- 인프라 분산으로 쿼리 비용 관리 개선
- 계층화된 데이터 웨어하우스와 메타데이터 문서화로 협업 효율성 증가
- Looker 대시보드 도입 예정으로 데이터 활용 범위 확장

