핵심 요약
AWS의 글로지 GloZ 이력서 검색 시스템은 Amazon OpenSearch Service로 전환하고 Bedrock Cohere Embed v4 및 Claude Haiku 4.5를 활용한 데이터 정제·임베딩 파이프라인으로 하이브리드 검색을 단일 쿼리로 처리합니다. 목표 ndcg@10 0.90 이상으로 설정했고, PoC에서 요약 + 메타데이터 키워드 평탄화 전략이 0.852로 최고 성능을 보였습니다.
구현 방법
- OpenSearch Service에서 BM25+벡터 검색 단일 쿼리 처리 지원
- Ingest Pipeline으로 임베딩 자동 생성 via Bedrock Cohere Embed
- HNSW 기반 knn_vector 설정, L2 거리
- Nori 기반 한국어 형태소 분석 도입
- 다단계 텍스트 추출: PyMuPDF, LibreOffice 변환, OCR, LLM 후처리
주요 결과
- 하이브리드 검색 단일 엔진으로 운영 간소화
- 임베딩 자동 생성으로 운영 부담 대폭 감소
- 한국어 다국어 이력서 검색 품질 개선
- 0.852의 실험 성능 및 ndcg@10 목표에 근접한 지표 제시
- 메타데이터 정규화 및 환각 방지 검증


