핵심 요약
구글의 EmbeddingGemma 아키텍처를 통해 텍스트를 임베딩으로 변환하는 시스템 설계와 학습 레시피를 소개합니다.
구현 방법
- Gemma 3 기반 EmbeddingGemma로 텍스트를 고차원 임베딩으로 변환하는 파이프라인 설계
- 노이즈 대조 학습(NCE), Global Orthogonal Regularizer, Geometric Embedding Distillation 등을 활용한 핵심 학습 방법 도입
- Matryoshka Representation Learning으로 임베딩 차원 다양성 및 유연성 확보
- 개발 레시피 구성: encoder-decoder 학습, pre-fine-tuning, fine-tuning, model souping, quantization-aware training
주요 결과
- 구체적 성과 지표는 본문에 제시되지 않음
- 임베딩 차원 유연성과 다단계 학습 레시피의 설계 시사점


