Moait
홈인기 피드모든 블로그모든 태그
홈인기 피드모든 블로그모든 태그
문서에서 필요정보만 뽑아 LLM에 입력하는 방법 - Upstage Document Parse 섬네일

문서에서 필요정보만 뽑아 LLM에 입력하는 방법 - Upstage Document Parse

현대자동차 favicon현대자동차·AI/ML·
AWSOCRDocument ParseLayout ModelTable Structure
2025년 03월 23일0

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

현대자동차가 업스테이지의 문서 파싱(DP) 기술을 도입해 문서의 레이아웃, 수식 및 테이블 정보를 정확히 추출하고 LLM 입력으로 활용하는 파이프라인을 소개했습니다.

구현 방법

  • DP 파이프라인 구성: 업스테이지 OCR의 Detector/Recognizer, 레이아웃 모델의 Detector/Order Model/Heading Classifier/Equation Recognizer, 테이블 구조 추출 모델의 협업
  • 데이터셋 및 평가: 고품질 데이터셋 구축, NID 및 TEDS 평가, 벤치마크 데이터셋 공개(200장 PDF)
  • 활용 방식: SaaS API, On-Premise 설치, AWS SageMaker 엔드포인트로의 서비스화

주요 결과

  • 페이지 처리 시간: 평균 1~2초 수준으로 처리
  • 벤치테스트에서 경쟁사 대비 우수한 문서 이해 성능
  • 데이터 품질 및 평가 체계 강화로 신뢰성 확보 및 재현성 강화

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!
[비전 AI②] ‘문서 데이터’ 깨우는 AI 등장 ··· 정밀도 경쟁 본격화 섬네일
70%

[비전 AI②] ‘문서 데이터’ 깨우는 AI 등장 ··· 정밀도 경쟁 본격화

슈퍼브에이아이 favicon슈퍼브에이아이·2025년 10월 20일
[#5 LLM Tutorial With RAG] LLM은 학습할 데이터도 스스로 만들 수 있습니다! 섬네일
69%

[#5 LLM Tutorial With RAG] LLM은 학습할 데이터도 스스로 만들 수 있습니다!

현대자동차 favicon현대자동차·2025년 02월 12일
딥러닝을 활용한 문서에서 지문 찾기 섬네일
68%

딥러닝을 활용한 문서에서 지문 찾기

케이뱅크 테크 favicon케이뱅크 테크·2022년 08월 22일