Moait
홈인기 피드모든 블로그모든 태그
홈인기 피드모든 블로그모든 태그

2조 토큰을 카테고리 분류에 쓰면서 알게된 것들

당근 favicon당근·AI/ML·
Apache KafkaBigQueryGoGoogle CloudApache Beam
2026년 02월 27일0

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

당근의 Taxonomy Management System은 LLM 기반 분류 파이프라인으로 3-depth의 약 1,400개 카테고리에서 시작해 6-depth의 10,000개 규모까지 확장 가능한 택소노미를 안정적으로 운영합니다.

구현 방법

  • Dataflow(Beam) 기반 병렬 추론, Kafka 소스, BigQuery 서빙
  • YAML 정의로 택소노미 관리, 다중 LLM(Gemini, GPT 계열)과 프롬프트 전략 구성
  • 임베딩+BM25 하이브리드 후보 필터링, DFS Two-stage로 비용과 정확도 균형
  • Ground Truth 기반 LLM 판단(LLM as a Judge), 프롬프트 캐싱 및 이미지 해상도 최적화
  • 다국어 지원 및 카테고리-속성 일관성 관리

주요 결과

  • 대용량 처리와 품질 모니터링 체계 구축
  • 1,400개(3-depth) 카테고리에서 시작해 10,000개(6-depth) 확장 가능
  • YAML 기반 중앙 관리와 다중-LLM 적용으로 재사용성 및 운영 안정성 향상

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!
T4 GPU 1장으로 일궈낸 올리브영의 Gemma 3 기반 sLLM 구축기 섬네일
75%

T4 GPU 1장으로 일궈낸 올리브영의 Gemma 3 기반 sLLM 구축기

올리브영 favicon올리브영·2026년 01월 21일
JobKorea LOOP 에이전트 개발기: 5. 멀티에이전트시스템을 위한 안내서 — 이론편 섬네일
74%

JobKorea LOOP 에이전트 개발기: 5. 멀티에이전트시스템을 위한 안내서 — 이론편

잡코리아 favicon잡코리아·2025년 09월 09일
JobKorea LOOP 에이전트 개발기: 4. 프로덕션을 위한 고급 에이전트 섬네일
73%

JobKorea LOOP 에이전트 개발기: 4. 프로덕션을 위한 고급 에이전트

잡코리아 favicon잡코리아·2025년 07월 28일