핵심 요약
당근의 Taxonomy Management System은 LLM 기반 분류 파이프라인으로 3-depth의 약 1,400개 카테고리에서 시작해 6-depth의 10,000개 규모까지 확장 가능한 택소노미를 안정적으로 운영합니다.
구현 방법
- Dataflow(Beam) 기반 병렬 추론, Kafka 소스, BigQuery 서빙
- YAML 정의로 택소노미 관리, 다중 LLM(Gemini, GPT 계열)과 프롬프트 전략 구성
- 임베딩+BM25 하이브리드 후보 필터링, DFS Two-stage로 비용과 정확도 균형
- Ground Truth 기반 LLM 판단(LLM as a Judge), 프롬프트 캐싱 및 이미지 해상도 최적화
- 다국어 지원 및 카테고리-속성 일관성 관리
주요 결과
- 대용량 처리와 품질 모니터링 체계 구축
- 1,400개(3-depth) 카테고리에서 시작해 10,000개(6-depth) 확장 가능
- YAML 기반 중앙 관리와 다중-LLM 적용으로 재사용성 및 운영 안정성 향상


