핵심 요약
한글과컴퓨터가 Python으로 HWPX 본문 데이터를 파싱하고 서식 정보를 연결하는 구현 방법을 제시하는 기술 블로그를 공개했습니다.
구현 방법
- Contents/section.xml의 구역 기반 본문 구조를 읽고 para/run로 파싱합니다.
- beginNum 등 KS X 6101 스키마를 참조해 시작 번호를 반영합니다.
- 텍스트/표/그림 등을 Ctrl로 추상화하고 구역-섹션에 매핑하는 모델을 설계합니다.
주요 결과
- 본문 데이터 추출과 서식 연결 방식, 유연한 데이터 모델 설계 원칙을 제시합니다.
- 섹션 단위 구조로 다양한 HWPX를 다룰 수 있는 확장성과 재사용성을 보여 줍니다.
