핵심 요약
여기어때가 Apache Iceberg 기반 데이터레이크를 도입해 멀티 엔진 아키텍처로 벤더 종속성을 해소하고 데이터 관리와 분석의 유연성을 확보한 내용을 공유합니다.
구현 방법
- GCS에 데이터 저장 및 Iceberg 테이블 관리, BigLake Metastore로 메타데이터 중앙 관리
- Spark는 데이터 변환/ETL, BigQuery는 읽기 중심의 애드혹 분석 및 대시보드 연결
- Iceberg의 ACID/Time Travel/Hidden Partitioning 및 파티션 프루닝 등 메타데이터 기반 최적화를 활용
주요 결과
- 멀티 엔진으로 워크로드 분리로 리소스 경합 감소
- 서버리스 BigQuery로 운영 부담 감소 및 확장성 개선
- 파티션 프루닝으로 비용 차이가 1000배까지 날 수 있습니다


