핵심 요약
AWS와 현대오토에버가 LangGraph 기반 워크플로우 오케스트레이션, Amazon OpenSearch, Bedrock 멀티에이전트를 활용해 빅데이터 클러스터 장애 대응 자동화를 구현했다. 14개 에이전트 설계와 9개 활성 노드를 통해 자동 진단-분석-복구를 수행하고, PostgresSaver로 체크포인트를 저장해 재시작 시 재개 가능성을 확보한다. 도입 효과로 MTTA 단축, 품질 표준화, 지식 자산화를 목표로 한다.
구현 방법
- LangGraph 기반 상태 기반 워크플로우 오케스트레이션(14개 에이전트, 9개 활성 노드)
- Amazon OpenSearch로 로그를 구조적으로 탐색·집계
- Bedrock 파운데이션 모델을 역할별 멀티에이전트로 구성, RCA 병렬 분석과 Reflector 교차 검증 도입
- 체크포인트 저장(PostgresSaver)로 재시작 시 재개 가능
주요 결과
- MTTA 단축, 품질 표준화, 지식 자산화 달성
- 운영의 일관성과 재현성 확보
- 확장성과 안정성을 위한 9개 활성 노드 구조 유지



