핵심 요약
SK플래닛의 Chat DIC 프로젝트가 AWS Bedrock Prompt Caching으로 시스템/도구 프롬프트의 재계산을 줄이고 응답 지연 및 토큰 비용을 절감한 사례를 다룹니다.
구현 방법
- System Prompt Caching: system, tools 프롬프트를 캐시에 저장해 재계산 방지
- Tools Prompt Caching: tools에 캐시포인트를 추가하고, 메시지는 캐시 제외
- TTL/토큰: TTL 5분, 최소 1,024 tokens 필요
- 체크포인트: 모델별 최대 4개
- API/기능: Converse/ConverseStream, InvokeModel/InvokeModelWithResponseStream, Cross-region Inference 지원
- 관리: Console 및 API에서 프롬프트 캐싱 설정 가능
주요 결과
- 시스템/도구 프롬프트 캐시로 재계산 감소, 응답 지연 및 토큰 비용 절감 기대
- Throttling 완화 및 프롬프트 관리 유연성 증가
- 메시지 프롬프트는 캐시 대상에서 제외
