Moait
홈인기 피드모든 블로그모든 태그
홈인기 피드모든 블로그모든 태그
GloZ의 Amazon OpenSearch Service를 기반으로 한 자연어 이력서 검색 시스템 구축 사례 — Part 1: 데이터 파이프라인과 인덱싱 섬네일

GloZ의 Amazon OpenSearch Service를 기반으로 한 자연어 이력서 검색 시스템 구축 사례 — Part 1: 데이터 파이프라인과 인덱싱

AWS faviconAWS·Architecture·
OpenSearchBedrockHNSWCohereClaude Haiku
2026년 05월 18일0

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

AWS의 글로지 GloZ 이력서 검색 시스템은 Amazon OpenSearch Service로 전환하고 Bedrock Cohere Embed v4 및 Claude Haiku 4.5를 활용한 데이터 정제·임베딩 파이프라인으로 하이브리드 검색을 단일 쿼리로 처리합니다. 목표 ndcg@10 0.90 이상으로 설정했고, PoC에서 요약 + 메타데이터 키워드 평탄화 전략이 0.852로 최고 성능을 보였습니다.

구현 방법

  • OpenSearch Service에서 BM25+벡터 검색 단일 쿼리 처리 지원
  • Ingest Pipeline으로 임베딩 자동 생성 via Bedrock Cohere Embed
  • HNSW 기반 knn_vector 설정, L2 거리
  • Nori 기반 한국어 형태소 분석 도입
  • 다단계 텍스트 추출: PyMuPDF, LibreOffice 변환, OCR, LLM 후처리

주요 결과

  • 하이브리드 검색 단일 엔진으로 운영 간소화
  • 임베딩 자동 생성으로 운영 부담 대폭 감소
  • 한국어 다국어 이력서 검색 품질 개선
  • 0.852의 실험 성능 및 ndcg@10 목표에 근접한 지표 제시
  • 메타데이터 정규화 및 환각 방지 검증

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!
“검색으로 연결되는 재능” — 하이브리드 검색 적용기 섬네일
80%

“검색으로 연결되는 재능” — 하이브리드 검색 적용기

크몽 favicon크몽·2025년 09월 01일
Aurora PostgreSQL에서 한국어 하이브리드 검색 구현하기: pg_bigm + pgvector로 만드는 한국어 특화 RAG 섬네일
75%

Aurora PostgreSQL에서 한국어 하이브리드 검색 구현하기: pg_bigm + pgvector로 만드는 한국어 특화 RAG

AWS faviconAWS·2026년 05월 13일
AWS OpenSearch 기반 EFK Stack 구축기 섬네일
72%

AWS OpenSearch 기반 EFK Stack 구축기

올리브영 favicon올리브영·2024년 04월 02일