핵심 요약
구글의 Gemini Embedding 2가 일반 가용화를 발표했고, 텍스트·이미지·비디오·오디오·문서를 하나의 시맨틱 공간으로 매핑하는 멀티모달 모델로, agentic RAG, 비주얼 검색, 콘텐츠 모더레이션 등에서 성능을 크게 높인다.
주요 특징
- 텍스트/이미지/비디오/오디오/문서를 하나의 시맨틱 공간으로 매핑하는 통합 임베딩 모델
- 단일 요청으로 멀티모달 입력을 결합해 처리
- 100개 이상 언어 지원
- 태스크별 프리픽스와 Matryoshka 차원 축소 등 고급 기능
적용 고려사항
- 멀티모달 입력을 하나의 API 호출로 처리하도록 파이프라인 구성
- 100개국 이상 언어 지원 시 데이터 품질 관리 및 로컬라이제이션 고려
- RAG, 시각 검색, 콘텐츠 모더레이션 등 목표에 맞춘 성능 튜닝 필요


