한국어 파인튜닝된 SPLADE 기반 Neural Sparse 모델과 Amazon OpenSearch 하이브리드 검색 벤치마크

핵심 요약

AWS가 한국어 SPLADE 기반 Neural Sparse 모델을 Amazon OpenSearch에서 배포하고, BM25 및 Titan Embeddings V2와의 하이브리드 벤치마크를 수행했습니다.

벤치마크 인덱스: bench-bm25-comp-ko, bench-dense-comp-ko, bench-sparse-klue-comp-ko
Dense: Titan Embedding V2(1024차원) + Bedrock, 32k 어휘, HNSW 기반 inner-product
Sparse: SPLADE 인코더(sewoong/korean-neural-sparse-encoder-base-klue-large)로 rank_features 인덱스; dot product로 점수
데이터/설정: MIRACL-ko 벤치마크, 4.84M triplets, 10k 문서 서브셋
인덱싱/쿼리: bulk 인덱싱, rank_features 기반 점수, saturation 기본 스코어링

정량적 수치는 본문에 명시되지 않았으나 벤치마크 구성과 구현 방식의 비교 가능성을 확인했습니다.

AWS가 한국어 SPLADE 기반 Neural Sparse 모델을 Amazon OpenSearch에서 배포하고, BM25 및 Titan Embeddings V2와의 하이브리드 벤치마크를 수행했습니다.

벤치마크 인덱스: bench-bm25-comp-ko, bench-dense-comp-ko, bench-sparse-klue-comp-ko
Dense: Titan Embedding V2(1024차원) + Bedrock, 32k 어휘, HNSW 기반 inner-product
Sparse: SPLADE 인코더(sewoong/korean-neural-sparse-encoder-base-klue-large)로 rank_features 인덱스; dot product로 점수
데이터/설정: MIRACL-ko 벤치마크, 4.84M triplets, 10k 문서 서브셋
인덱싱/쿼리: bulk 인덱싱, rank_features 기반 점수, saturation 기본 스코어링

정량적 수치는 본문에 명시되지 않았으나 벤치마크 구성과 구현 방식의 비교 가능성을 확인했습니다.