핵심 요약
AWS가 TwelveLabs Marengo 3.0의 멀티모달 임베딩으로 비디오 검색의 시각/음성/전사를 하나의 공유 벡터 공간에 매핑하는 멀티모달 전략을 소개하고, Fused Embeddings, Multi-Vector Retrieval, Intent-based Dynamic Routing의 3가지 구현 방향과 적용 가이드를 제공합니다.
구현 방법
- Fused Embeddings: 시각(AI) 0.8, 음성 0.1, 전사 0.05로 임베딩을 가중합해 하나의 인덱스로 저장. 장점은 관리와 비용이 수월하나, 가중치 변경 불가, 쿼리 의도 반영 제한, 디버깅 어려움이 한계로 제시됩니다.
- Multi-Vector Retrieval: 3개 모달리티를 독립 인덱스에 저장하고 쿼리 시 점수 합산(Score-based) 또는 순위 합산(RRF)으로 랭킹. 가역성 및 디버깅 용이, 가중치 재조정이 용이합니다.
- Intent-based Dynamic Routing: Routing Anchor로 의도를 파악하고 Softmax with Temperature(α=10)로 가중치를 동적으로 산출. 앵커 품질 의존, 인덱스 3개 필요, α 튜닝 필요.
주요 결과
- 멀티모달 임베딩의 다양한 조합으로 any-to-any 검색 가능성을 제시하고, 모달리티 기여도 분석 및 가중치 튜닝으로 시스템 최적화를 지원합니다. 다만 Fused 방식은 고정 가중치의 한계가, 멀티-벡터 방식은 인덱스 관리의 부담이 있습니다. Intent-based Routing은 앵커 품질과 매개변수 관리 필요합니다.



