홈 인기 피드 모든 블로그 모든 태그

홈 인기 피드 모든 블로그 모든 태그

당근 데이터 지도를 그리다: 컬럼 레벨 리니지 구축기

SQL Apache Spark BigQuery Apache Airflow Sqlglot

2025년 12월 04일10

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

당근 데이터 가치화팀은 컬럼 레벨 리니지 파싱과 자동화 파이프라인 구축으로 데이터 흐름의 가시성과 신뢰성을 높인 사례를 공유합니다.

구현 방법

BigQuery INFORMATION_SCHEMA.JOBS에서 실행 쿼리 로그를 수집하고 sqlglot로 파싱하여 컬럼 간 의존성을 추출합니다.
추출 결과를 Spark로 병렬 처리해 데이터_catalog.lineage에 저장하고, CTE/서브쿼리 처리도 단계적으로 해석합니다.
운영·확장: Airflow로 스케줄링하고 MCP Server로 빠른 조회를 제공하며, 원본(raw) 테이블 위에 목적별 View를 구성합니다.

주요 결과

매일 전날 쿼리 로그를 분석해 리니지를 자동으로 업데이트합니다.
하루 약 15,000개의 테이블과 80만 개의 컬럼 의존 관계를 추적합니다.
MCP Server를 통해 몇 초 이내에 리니지 정보를 조회할 수 있습니다.

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!

Mapping Karrot’s Data: How We Built Column-Level Lineage

당근·2025년 12월 05일

모두가 데이터를 다루는 AI 시대, 지난 1년간 데이터 팀은 어떻게 달라졌을까?

당근·2026년 04월 23일

당근 200+개 DB 를 옮기는 ELT 플랫폼, DT Platform 을 만든 이야기 섬네일

당근 200+개 DB 를 옮기는 ELT 플랫폼, DT Platform 을 만든 이야기

당근·2026년 06월 04일