홈 인기 피드 모든 블로그 모든 태그

홈 인기 피드 모든 블로그 모든 태그

Mapping Karrot’s Data: How We Built Column-Level Lineage

Data Lineage SQL BigQuery Airflow sqlglot

2025년 12월 05일3

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

당근이 열 수준 데이터 흐름을 추적하는 데이터 계보를 SQL 파싱으로 구축했습니다.

구현 방법

sqlglot으로 다양한 다이얼렉트 파싱 및 AST 생성
Spark로 대량 쿼리 병렬 파싱
Airflow로 주기 업데이트, BigQuery INFORMATION_SCHEMA.JOBS에서 쿼리 수집
데이터는 data_catalog.lineage에 저장하고 MCP 서버로 쿼리 제공
MCP 서버는 최근 30일 데이터를 기반으로 작동

주요 결과

매일 전일 쿼리 분석으로 자동 lineage 추출
일일 약 15,000개 테이블, 800,000 열 의존성 추적
MCP 서버는 수초 내 응답으로 빠른 조회 가능
변경 영향 분석으로 운영 안전성 증가

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!

당근 데이터 지도를 그리다: 컬럼 레벨 리니지 구축기

당근·2025년 12월 04일

Karrot’s Journey to CDC with MongoDB

당근·2025년 12월 09일

모두가 데이터를 다루는 AI 시대, 지난 1년간 데이터 팀은 어떻게 달라졌을까?

당근·2026년 04월 23일