홈 인기 피드 모든 블로그 모든 태그

홈 인기 피드 모든 블로그 모든 태그

네이버 클라우드 플랫폼의 ETL 서비스 Data Flow 실습 섬네일

네이버 클라우드 플랫폼의 ETL 서비스 Data Flow 실습

Naver Cloud·Data·

Kubernetes Docker Airflow Data Flow Object Storage

2023년 12월 22일0

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

네이버 클라우드 플랫폼의 ETL 서비스 Data Flow 실습을 통해 데이터 흐름 자동화와 저장소 최적화를 제시합니다.

구현 방법

Data Flow를 이용한 ETL 파이프라인 구성 및 흐름 설명
Flow Log를 Object Storage에 저장하고 Parquet 포맷으로 변환/압축
Airflow를 통해 정기 실행 및 경로 변경(DAG 관리)
GitHub의 dataflow-example/docker-compose로 Airflow 구현
Flow Log 데이터를 주기적으로 삭제 및 이동시키며 관리

주요 결과

Flow Log 데이터의 자동화 처리 및 저장 포맷 최적화 예시 제시
flowlog-dataflow-v1 > results의 Parquet 파일 생성, flowlog-dataflow-v1 > inbound-distict-ip-list의 CSV 파일 생성

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!

Airflow 환경 Docker compose로 containerization하기 섬네일

Airflow 환경 Docker compose로 containerization하기

Naver Place·2023년 12월 04일

(Airflow #1) 데이터 엔지니어들이 선택하는 Apache Airflow 소개 섬네일

(Airflow #1) 데이터 엔지니어들이 선택하는 Apache Airflow 소개

현대자동차·2025년 02월 16일

Kubernetes 클러스터에 애플리케이션 배포하기 섬네일

Kubernetes 클러스터에 애플리케이션 배포하기

Naver Cloud·2023년 09월 11일