핵심 요약
NC Research의 VARCO-VISION은 한국어 기반 VLM에서 우수한 벤치마크 성과를 기록했고, K-DTCBench/K-LLaVA-W 등에서 특히 높은 점수를 얻었습니다.
구현 방법
- 구성: 이미지 인코더 SigLIP, 프리트레이닝 LLM QWEN-2.5 14B, MLP 프로젝션, 트리거 토큰 도입
- 학습: Stage1 가중치 고정(MLP만 학습), Stage2-3 전체 파인튜닝, Stage4 LLM만 학습(DPO)
- 특징: OCR/그라운딩/레퍼링을 단일 모델에서 컨트롤 가능하도록 설계
주요 결과
- 한국어 벤치마크 다수에서 최고 점수
- K-DTCBench 84.58점, K-LLaVA-W 84.74점 등 구체 수치 제시
- 영어 벤치마크에서도 상위권 및 OCR/생성 능력 우수
- 향후 다중 이미지 현지화 모델, 비디오/오디오 확장 및 MMIR 연구 계획
