Moait
홈인기 피드모든 블로그모든 태그
홈인기 피드모든 블로그모든 태그
한/글 문서 파일 형식: Python을 통한 HWPX 포맷 파싱하기 (2) 섬네일

한/글 문서 파일 형식: Python을 통한 HWPX 포맷 파싱하기 (2)

한글과컴퓨터 favicon한글과컴퓨터·Data·
Python
2025년 09월 29일4

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

한글과컴퓨터가 Python으로 HWPX 본문 데이터를 파싱하고 서식 정보를 연결하는 구현 방법을 제시하는 기술 블로그를 공개했습니다.

구현 방법

  • Contents/section.xml의 구역 기반 본문 구조를 읽고 para/run로 파싱합니다.
  • beginNum 등 KS X 6101 스키마를 참조해 시작 번호를 반영합니다.
  • 텍스트/표/그림 등을 Ctrl로 추상화하고 구역-섹션에 매핑하는 모델을 설계합니다.

주요 결과

  • 본문 데이터 추출과 서식 연결 방식, 유연한 데이터 모델 설계 원칙을 제시합니다.
  • 섹션 단위 구조로 다양한 HWPX를 다룰 수 있는 확장성과 재사용성을 보여 줍니다.

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!
한/글 문서 파일 형식: Python을 통한 HWP 포맷 파싱하기 (2) 섬네일
81%

한/글 문서 파일 형식: Python을 통한 HWP 포맷 파싱하기 (2)

한글과컴퓨터 favicon한글과컴퓨터·2025년 09월 29일
워드 문서 파일 형식: DOCX 포맷의 구조와 이해 (1) 섬네일
65%

워드 문서 파일 형식: DOCX 포맷의 구조와 이해 (1)

한글과컴퓨터 favicon한글과컴퓨터·2026년 02월 09일
워드 문서 파일 형식: DOC 포맷의 구조와 이해 (1) 섬네일
65%

워드 문서 파일 형식: DOC 포맷의 구조와 이해 (1)

한글과컴퓨터 favicon한글과컴퓨터·2026년 02월 09일