Moait
홈인기 피드모든 블로그모든 태그
홈인기 피드모든 블로그모든 태그

Mapping Karrot’s Data: How We Built Column-Level Lineage

당근 favicon당근·Data·
Data LineageSQLBigQueryAirflowsqlglot
2025년 12월 05일2

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

당근이 열 수준 데이터 흐름을 추적하는 데이터 계보를 SQL 파싱으로 구축했습니다.

구현 방법

  • sqlglot으로 다양한 다이얼렉트 파싱 및 AST 생성
  • Spark로 대량 쿼리 병렬 파싱
  • Airflow로 주기 업데이트, BigQuery INFORMATION_SCHEMA.JOBS에서 쿼리 수집
  • 데이터는 data_catalog.lineage에 저장하고 MCP 서버로 쿼리 제공
  • MCP 서버는 최근 30일 데이터를 기반으로 작동

주요 결과

  • 매일 전일 쿼리 분석으로 자동 lineage 추출
  • 일일 약 15,000개 테이블, 800,000 열 의존성 추적
  • MCP 서버는 수초 내 응답으로 빠른 조회 가능
  • 변경 영향 분석으로 운영 안전성 증가

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!
No Image
78%

당근 데이터 지도를 그리다: 컬럼 레벨 리니지 구축기

당근 favicon당근·2025년 12월 04일
No Image
68%

Karrot’s Journey to CDC with MongoDB

당근 favicon당근·2025년 12월 09일
No Image
64%

DBT, Airflow를 활용한 데이터 계보 중심 파이프라인 만들기

NAVER D2 faviconNAVER D2·2025년 11월 24일