홈 인기 피드 모든 블로그 모든 태그

홈 인기 피드 모든 블로그 모든 태그

하나의 데이터, 멀티 엔진: Apache Iceberg로 구축하는 데이터레이크

여기어때·Architecture·

Apache Iceberg BigQuery ACID Google Cloud Storage BigLake Metastore

2025년 12월 16일4

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

여기어때가 Apache Iceberg 기반 데이터레이크를 도입해 멀티 엔진 아키텍처로 벤더 종속성을 해소하고 데이터 관리와 분석의 유연성을 확보한 내용을 공유합니다.

구현 방법

GCS에 데이터 저장 및 Iceberg 테이블 관리, BigLake Metastore로 메타데이터 중앙 관리
Spark는 데이터 변환/ETL, BigQuery는 읽기 중심의 애드혹 분석 및 대시보드 연결
Iceberg의 ACID/Time Travel/Hidden Partitioning 및 파티션 프루닝 등 메타데이터 기반 최적화를 활용

주요 결과

멀티 엔진으로 워크로드 분리로 리소스 경합 감소
서버리스 BigQuery로 운영 부담 감소 및 확장성 개선
파티션 프루닝으로 비용 차이가 1000배까지 날 수 있습니다

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!

리멤버앤컴퍼니의 Amazon S3 Tables를 활용한 실시간 분석 워크로드 구축하기 2부: S3 Tables를 프로덕션 환경에서 운영하기 섬네일

리멤버앤컴퍼니의 Amazon S3 Tables를 활용한 실시간 분석 워크로드 구축하기 2부: S3 Tables를 프로덕션 환경에서 운영하기

AWS·2025년 10월 29일

핑크퐁의 통합 데이터 환경 구축기 (feat. Snowflake) 섬네일

핑크퐁의 통합 데이터 환경 구축기 (feat. Snowflake)

더핑크퐁컴퍼니·2023년 09월 06일

Redshift DW에서 PG DM을 만드는 여정 섬네일

Redshift DW에서 PG DM을 만드는 여정

매드업·2022년 04월 01일