핵심 요약
NC Research가 VARCO-MLLM의 학습 단계(사전 학습/미세 조정)와 데이터-그라운딩-얼라인먼트를 통해 우수한 MLLM을 만드는 방법과, 이미지 문자 인식, 객체 위치 추출, 텍스트 단일 모달 처리 등 VARCO-MLLM의 핵심 특징을 소개했습니다.
구현 방법
- 사전 학습: 이미지 인코더는 Frozen, 프로젝터만 학습; 텍스트 디코더는 상황에 따라 Not frozen.
- 미세 조정: 지시사항에 맞춘 텍스트 입력/출력으로 조정, 필요 시 이미지 인코더도 학습 가능.
- 데이터/Grounding/Alignment: 균형·다양성·품질 확보, 텍스트-이미지 관계 학습 및 안전성 정렬에 집중.
주요 결과
- 다양한 시각-언어 태스크를 수행할 수 있음
- 실생활 문제 해결에 활용 가능

