핵심 요약
AWS가 한국어 SPLADE 기반 Neural Sparse 모델을 Amazon OpenSearch에서 배포하고, BM25 및 Titan Embeddings V2와의 하이브리드 벤치마크를 수행했습니다.
구현 방법
- 벤치마크 인덱스: bench-bm25-comp-ko, bench-dense-comp-ko, bench-sparse-klue-comp-ko
- Dense: Titan Embedding V2(1024차원) + Bedrock, 32k 어휘, HNSW 기반 inner-product
- Sparse: SPLADE 인코더(sewoong/korean-neural-sparse-encoder-base-klue-large)로 rank_features 인덱스; dot product로 점수
- 데이터/설정: MIRACL-ko 벤치마크, 4.84M triplets, 10k 문서 서브셋
- 인덱싱/쿼리: bulk 인덱싱, rank_features 기반 점수, saturation 기본 스코어링
주요 결과
정량적 수치는 본문에 명시되지 않았으나 벤치마크 구성과 구현 방식의 비교 가능성을 확인했습니다.



