핵심 요약
NC Research가 MMIR 기술 트렌드를 분석하고, M-BEIR 벤치마크 하에서 대표 모델의 차이점과 태스크 구성을 정리했습니다.
구현 방법
- Bi-Encoder로 질의/후보를 각각 인코딩하고 Dot Product로 매칭. CLIP/BLIP 기반 인코더 조합 활용.
- UniIR, VISTA, STAIR, E5-V의 핵심 포인트: Dense 벡터/In-Depth Fusion/Sparse 벡터/프롬프트 기반 모달리티 간극 제거.
주요 결과
- 다양한 모달리티 태스크에 맞춘 인코딩 전략의 필요성이 강조
- M-BEIR를 통한 도메인 규모별 비교의 중요성 부각
- 프롬프트 기반 접근이 모달리티 간극 완화에 기여하는 사례 제시


