핵심 요약
네이버 클라우드 플랫폼의 ETL 서비스 Data Flow 실습을 통해 데이터 흐름 자동화와 저장소 최적화를 제시합니다.
구현 방법
- Data Flow를 이용한 ETL 파이프라인 구성 및 흐름 설명
- Flow Log를 Object Storage에 저장하고 Parquet 포맷으로 변환/압축
- Airflow를 통해 정기 실행 및 경로 변경(DAG 관리)
- GitHub의 dataflow-example/docker-compose로 Airflow 구현
- Flow Log 데이터를 주기적으로 삭제 및 이동시키며 관리
주요 결과
- Flow Log 데이터의 자동화 처리 및 저장 포맷 최적화 예시 제시
- flowlog-dataflow-v1 > results의 Parquet 파일 생성, flowlog-dataflow-v1 > inbound-distict-ip-list의 CSV 파일 생성


