Moait
홈인기 피드모든 블로그모든 태그
홈인기 피드모든 블로그모든 태그

당근 데이터 지도를 그리다: 컬럼 레벨 리니지 구축기

당근 favicon당근·Data·
SQLApache SparkBigQueryApache AirflowSqlglot
2025년 12월 04일8

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

당근 데이터 가치화팀은 컬럼 레벨 리니지 파싱과 자동화 파이프라인 구축으로 데이터 흐름의 가시성과 신뢰성을 높인 사례를 공유합니다.

구현 방법

  • BigQuery INFORMATION_SCHEMA.JOBS에서 실행 쿼리 로그를 수집하고 sqlglot로 파싱하여 컬럼 간 의존성을 추출합니다.
  • 추출 결과를 Spark로 병렬 처리해 데이터_catalog.lineage에 저장하고, CTE/서브쿼리 처리도 단계적으로 해석합니다.
  • 운영·확장: Airflow로 스케줄링하고 MCP Server로 빠른 조회를 제공하며, 원본(raw) 테이블 위에 목적별 View를 구성합니다.

주요 결과

  • 매일 전날 쿼리 로그를 분석해 리니지를 자동으로 업데이트합니다.
  • 하루 약 15,000개의 테이블과 80만 개의 컬럼 의존 관계를 추적합니다.
  • MCP Server를 통해 몇 초 이내에 리니지 정보를 조회할 수 있습니다.

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!
No Image
78%

Mapping Karrot’s Data: How We Built Column-Level Lineage

당근 favicon당근·2025년 12월 05일
당근 데이터 디스커버리 구축기: DataHub와 DataWiki로 여는 데이터 탐색의 첫걸음 섬네일
71%

당근 데이터 디스커버리 구축기: DataHub와 DataWiki로 여는 데이터 탐색의 첫걸음

당근 favicon당근·2025년 07월 17일
No Image
70%

당근의 GenAI 플랫폼

당근 favicon당근·2025년 12월 19일