Moait
홈인기 피드모든 블로그모든 태그
홈인기 피드모든 블로그모든 태그

Apache Spark에서 컬럼 기반 저장 포맷 Parquet(파케이) 제대로 활용하기

타다 favicon타다·Data·
AWSApache SparkJSONParquetNDJSON
2018년 05월 24일0

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

타다의 Parquet 활용 사례에서 저장 용량을 대폭 줄이고 처리 속도를 크게 향상시켰습니다.

구현 방법

  • Apache Spark를 활용한 JSON 로그를 Parquet로 저장하는 데이터 파이프라인 구성
  • 저장 용량 및 성능 개선을 위한 Parquet 설정 최적화: parquet.enable.dictionary, parquet.block.size(32MB), parquet.page.size(2MB), parquet.dictionary.page.size(8MB), parquet.string.min-max-statistics(true)
  • top-level 컬럼 프루닝과 predicate pushdown의 효과를 확인하고, 필요한 경우 상위 레벨 컬럼으로 재구성

주요 결과

  • 저장 용량: gzipped JSON 23GB → Parquet 6GB(약 74% 감소)
  • 쿼리 성능: 의심스러운 로그인 탐지 쿼리 15분→약 30초로 30배 이상 가속
  • 세부 로그 처리: 한 사람 로그 조회/처리 시간 5분→약 30초로 대폭 단축
  • 추가 이점: Parquet의 string min-max 통계와 row group skipping으로 추가 성능 향상, 네트워크 I/O 감소에 따른 처리 속도 개선

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!
Trino로 타임아웃 개선하기 섬네일
71%

Trino로 타임아웃 개선하기

NHN Cloud faviconNHN Cloud·2025년 03월 04일
No Image
68%

VCNC가 Hadoop대신 Spark를 선택한 이유

타다 favicon타다·2015년 05월 18일
No Image
68%

HBase 설정 최적화하기

타다 favicon타다·2013년 04월 23일