핵심 요약
AWS가 GraphRAG Toolkit를 활용해 지식 그래프 인덱싱을 구현하는 방법을 소개합니다. 어휘 그래프 모델로 문장을 핵심 컨텍스트로 삼고, 추출(Extract)과 구축(Build)의 2단계 파이프라인으로 데이터 간의 복잡한 관계를 효율적으로 검색하는 아키텍처를 제시합니다. 그래프 시각화와 추론된 스키마를 통해 심층 맥락까지 파악하는 흐름을 다룹니다.
주요 특징
- Lexical Graph 모델로 문장을 계층적으로 연결하는 어휘 그래프 구성
- 추출(Extract) + 구축(Build) 2단계 인덱싱 파이프라인
- 로딩/청크화에 LlamaIndex의 MarkdownNodeParser와 SentenceSplitter 사용
- 명제(Propositions), 주제(Topics), 사실(Facts)로 핵심 컨텍스트 보존
- 벡터 임베딩과 그래프 저장소(GraphStore, VectorStore) 결합
- 그래프 시각화 및 추론된 스키마로 심층 맥락까지 질의 가능
적용 고려사항
- 실행 모드: 통합, 분리, 배치 추출 등 인덱싱 옵션의 선택
- 데이터 소스 포맷에 따른 리더/분할 전략 조정
- 저장소 규모 및 비용 관리, 보안/접근 제어 필요
- 모니터링 및 로깅으로 데이터 흐름 추적


