홈 인기 피드 모든 블로그 모든 태그

홈 인기 피드 모든 블로그 모든 태그

VARCO-VISION: 동급 오픈소스 VLM 모델 중 한국어 1위 섬네일

VARCO-VISION: 동급 오픈소스 VLM 모델 중 한국어 1위

NC Research·AI/ML·

Hugging Face OCR VLM LLaVA OneVision SigLIP

2024년 12월 04일5

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

NC Research의 VARCO-VISION은 한국어 기반 VLM에서 우수한 벤치마크 성과를 기록했고, K-DTCBench/K-LLaVA-W 등에서 특히 높은 점수를 얻었습니다.

구현 방법

구성: 이미지 인코더 SigLIP, 프리트레이닝 LLM QWEN-2.5 14B, MLP 프로젝션, 트리거 토큰 도입
학습: Stage1 가중치 고정(MLP만 학습), Stage2-3 전체 파인튜닝, Stage4 LLM만 학습(DPO)
특징: OCR/그라운딩/레퍼링을 단일 모델에서 컨트롤 가능하도록 설계

주요 결과

한국어 벤치마크 다수에서 최고 점수
K-DTCBench 84.58점, K-LLaVA-W 84.74점 등 구체 수치 제시
영어 벤치마크에서도 상위권 및 OCR/생성 능력 우수
향후 다중 이미지 현지화 모델, 비디오/오디오 확장 및 MMIR 연구 계획

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!

VARCO-MLLM 한국어 잘하는 멀티모달 모델 섬네일

VARCO-MLLM 한국어 잘하는 멀티모달 모델

NC Research·2024년 09월 12일

Introduction to NAVER Place AI Development Team 섬네일

Introduction to NAVER Place AI Development Team

Naver Place·2023년 09월 08일

언어모델 평가를 위한 벤치마크 데이터셋 소개와 그 활용 섬네일

언어모델 평가를 위한 벤치마크 데이터셋 소개와 그 활용

NC Research·2024년 11월 21일