핵심 요약
매드업 LEVER Xpert AI팀은 광고 소재를 자연어로 검색하는 시스템을 구현하고, Offline/Online 파이프라인과 Description 기반 임베딩으로 Hybrid Search를 적용해 실험한 결과를 제시했다. PoC에서 Expansion 접근이 가장 큰 Recall 향상을 보였으며, 강화학습의 Exploitation vs Exploration 관점으로 exploration_weight를 조정해 최적의 설정을 찾았다.
구현 방법
- Offline Pipeline: Description 추출을 LLM이 수행하고, Description을 의미 검색(Dense)과 키워드 검색(Sparse) 두 형태로 이중 인덱싱하여 Milvus에 저장
- Online Pipeline: 질의 이해를 LLM이 담당하고, Hybrid Search(Dense + Sparse)로 검색 후 LLM이 재정렬(Reranking)
- 기술 스택 및 구성: Vector DB Milvus, Dense Embedding은 Gemini, Sparse 검색은 BM25, LLM은 Gemini (질의 이해, Reranking) 사용
주요 결과
- 접근 방식별 Recall@30: Augmentation 0.51, Expansion 0.66, HyDE 0.59로 Expansion이 가장 큰 개선을 보임
- 확장 쿼리 채택: Expansion 접근 채택으로 Recall이 가장 높음
- Exploration Weight 실험: 0.0(원본만) 0.80 → 0.86(0.2) → 0.83(0.5) → 0.81(0.7) → 0.77(1.0)
- 최적값: exploration_weight = 0.2에서 Recall@30 0.86로 가장 높게 나타남
- 요약 인사이트: 원본 쿼리의 의도는 유지하되 확장 쿼리의 신호를 부분 반영하는 구성이 성능을 최상으로 이끌어냄


