핵심 요약
당근의 데이터 가치화 팀은 DataHub와 DataWiki를 도입해 데이터 디스커버리 체계를 구축하고, 데이터 신선도와 신뢰성을 크게 개선했습니다.
구현 방법
- DataHub 아키텍처 도입: Kafka 스트리밍으로 메타데이터 수집, MySQL 저장, Elasticsearch 검색, 그래프 탐색
- 데이터 신선도 관리: Airflow로 메타데이터 업데이트 자동화 및 7일 주기 기준
- DataWiki/SSOT 구성: Notion 기반 데이터 위키와 BigQuery SSOT로 구조화 및 데이터Hub 연계
- 접근성 강화: 전사 Editor 권한 부여 및 데이터 요청 파이프라인 운영
주요 결과
- 데이터셋 최신 상태 약 99% 이상 유지, 2주 이상 미갱신 건 매주 평균 13건으로 관리해 신선도 99.95% 달성
- 구성원 참여 확대 및 탐색 효율 증가
- Text-to-SQL 챗봇 실험으로 확장 가능성 확인

