핵심 요약
AWS Korea SA 팀이 Deep Insight를 활용해 Context Window 한계를 극복하는 프로덕션급 Multi-Agent 시스템을 설계·운영하고, 4계층 Context Engineering과 파일 기반 저장/도구 격리/검증 안전장치를 적용한 실전 경험을 공유합니다.
구현 방법
- Layer 1: 멀티 에이전트 아키텍처로 Context를 격리하고, Coordinator/Planner/Plan Reviewer/Supervisor 및 Tool Agents로 구성. 공유 변수 shared_state(messages, clues, full_plan, history)를 통해 핵심 정보만 전달하고, CLUES_FORMAT로 압축 전달. 각 에이전트의 Context는 독립적으로 유지되며 coder의 전체 Context는 25K 토큰을 넘지 않게 관리.
- Layer 2: 프롬프트로 Context 유입량 제어. 에이전트별 출력 토큰 예산 명시(Coder 1,000~1,500; Validator 800; Reporter 1,000). 모든 에이전트가 동일한 표준 응답 형식 및 CLUES_FORMAT를 사용.
- Layer 3: 도구를 통한 컨텐츠 외부화. write_and_execute_tool로 코드 작성+즉시 실행을 하나의 도구로 통합하고, Context에 남는 코드를 최소화. coder_analysis_utils.py 같은 공통 모듈로 토큰 낭비를 줄이고 일관성 확보. Structured Note-taking으로 all_results.txt, calculation_metadata.json, citations.json 등 파일에 분석 결과를 누적 저장.
- Layer 4: 검증·안전장치 및 최종 방어선. Tracker/Validator로 품질 보증을 수행하고, SummarizingConversationManager를 통해 예외 상황에서의 안전성 확보. Claude Skills를 활용해 필요 시에만 지식 로드하고, SkillLoader가 SKILL.md를 읽어 런타임에 확장 가능.
- 기타 구현 원칙: 컨텍스트에는 포인터만, 실제 데이터는 파일에 저장하는 원칙, 필요 시점에 로드하는 Skill 시스템, 시스템 프롬프트의 실시간 제어를 통한 토큰 효율성 확보.
주요 결과
- Layered 구조로 Context를 계층별로 관리하여 단일 에이전트의 과도한 Context 축적 문제를 해소하고, Coder의 전체 Context를 25K 토큰 이하로 유지.
- 코드 생성 시 자체적으로 길이가 긴 출력을 Context 밖으로 옮겨 토큰 사용을 대폭 절감하는 write_and_execute_tool 도입으로 약 95%의 토큰 절감 효과를 기대.
- 모든 중간 산출물을 파일로 구조화 저장하는 Structured Note-taking으로 에이전트 간 전달이 약 30토큰 수준의 간단한 메시지로 대체되며, 필요 시 파일을 읽어 활용하는 방식으로 요약 품질과 운영 유연성 증가.
- 실전 운영 관점의 인사이트를 제공하며, AWS에 배포하고 운영하는 방법에 대한 실전 경험도 함께 공유.


