핵심 요약
Microsoft Developer의 Azure Cosmos DB가 검색 중심의 데이터베이스로 진화하는 사례를 소개합니다. 벡터 유사도 검색, 풀텍스트 검색, 하이브리드 검색을 하나의 분산 엔진에서 지원하고, BW-Tree 기반 인덱스 구조와 글로벌 분산 아키텍처로 대규모 트래픽에 대응합니다.
주요 특징
- Vector Similarity Search: Flat Index, Quantized-Flat Index, DiskANN Index 및 DiskANN 그래프를 통한 대규모 코퍼라에서의 근접 검색 지원; 다 tenant 샤딩으로 분리된 인덱스 제공.
- Full-Text Search: 토크나이제이션, 구문/근접/퍼지 매칭, LM 기반 랭킹을 포함한 텍스트 검색 기능.
- Hybrid Search & Ranking: 시맨틱과 키워드를 단일 질의에서 결합; Reciprocal Rank Fusion(RRF)으로 랭킹 통합; 시맨틱 리랭커 및 Auto Embedding Generation(곧 제공)으로 확장성 강화.
- 인덱스 엔진 아키텍처: BW-Tree 기반 역인덱스, JSON 문서를 트리로 표현하는 스키마-프리 구조, 글로벌 분산 및 고가용성 기반의 런타임 최적화.
적용 고려사항
- DiskANN 도입 시 벡터 인덱스의 저장/업데이트 비용 및 정확도/성능 트레이드오프 검토.
- 다Tenant 환경에서의 인덱스 샤딩 격리 및 성능 관리 전략 필요.
- 기존 질의 언어(SQL)와의 통합 및 시맨틱/키워드 검색의 운영 학습 곡선 고려.



