핵심 요약
롯데ON이 RCA 에이전트 SentryOn을 Strands SDK로 도입해 24/365 자동 원인 추론과 시스템 상태 조회를 수행하는 SRE 에이전트를 구축했습니다.
구현 방법
- Strands SDK의 Agent Loop를 활용한 단일 에이전트 구조 채택
- 사내 도메인 지식 프롬프트(LotteOn_System_Context) 주입
- Whatap 수십 MB 규모 JSON 데이터와 Elasticsearch 로그의 데이터 소스별 정제 및 효율 조회
- Datadog 메트릭 조회를 위한 datadog-metric-playbook Skill 도입
- 프롬프트 캐싱으로 비용 및 지연 절감
- Read-Only 운영, 향후 HIL 기반 액션 도입 고려
주요 결과
- 24/365 빠른 1차 분석으로 MTTR 및 응답 속도 개선에 기여
- MSA 내비게이션과 운영 피로도 감소에 기여



