핵심 요약
SK플래닛의 Chat DIC 프로젝트에서 AWS Bedrock Prompt Caching을 도입해 쿼리 생성 속도와 비용을 최적화했습니다.
구현 방법
- system·tools 프롬프트를 캐시로 상시 유지하고, 메시지 영역은 필요 시에만 적용
- TTL 5분, cachePoint를 최소 1,024 tokens에서 설정
- Cross-region Inference 및 SSE 스트리밍과 연동해 안정성 확보
- 프롬프트 생성/수정 시 캐싱 옵션으로 효율성 향상
주요 결과
- 평균 응답 시간 약 29.3초→23.1초로 단축
- Throttling 감소 약 60% 달성
- 토큰 비용 절감 및 시스템 안정성 향상