Moait
홈인기 피드모든 블로그모든 태그
홈인기 피드모든 블로그모든 태그
VARCO-VISION: 동급 오픈소스 VLM 모델 중 한국어 1위 섬네일

VARCO-VISION: 동급 오픈소스 VLM 모델 중 한국어 1위

NC Research faviconNC Research·AI/ML·
Hugging FaceOCRVLMLLaVA OneVisionSigLIP
2024년 12월 04일3

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

NC Research의 VARCO-VISION은 한국어 기반 VLM에서 우수한 벤치마크 성과를 기록했고, K-DTCBench/K-LLaVA-W 등에서 특히 높은 점수를 얻었습니다.

구현 방법

  • 구성: 이미지 인코더 SigLIP, 프리트레이닝 LLM QWEN-2.5 14B, MLP 프로젝션, 트리거 토큰 도입
  • 학습: Stage1 가중치 고정(MLP만 학습), Stage2-3 전체 파인튜닝, Stage4 LLM만 학습(DPO)
  • 특징: OCR/그라운딩/레퍼링을 단일 모델에서 컨트롤 가능하도록 설계

주요 결과

  • 한국어 벤치마크 다수에서 최고 점수
  • K-DTCBench 84.58점, K-LLaVA-W 84.74점 등 구체 수치 제시
  • 영어 벤치마크에서도 상위권 및 OCR/생성 능력 우수
  • 향후 다중 이미지 현지화 모델, 비디오/오디오 확장 및 MMIR 연구 계획

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!
VARCO-MLLM 한국어 잘하는 멀티모달 모델 섬네일
79%

VARCO-MLLM 한국어 잘하는 멀티모달 모델

NC Research faviconNC Research·2024년 09월 12일
Introduction to NAVER Place AI Development Team 섬네일
69%

Introduction to NAVER Place AI Development Team

Naver Place faviconNaver Place·2023년 09월 08일
언어모델 평가를 위한 벤치마크 데이터셋 소개와 그 활용 섬네일
68%

언어모델 평가를 위한 벤치마크 데이터셋 소개와 그 활용

NC Research faviconNC Research·2024년 11월 21일