핵심 요약
잡코리아의 Career Agent 개발에서 Langfuse를 활용해 에이전트 관찰, 대화 메모리 관리, 응답 속도 최적화, 대량 배치 비용 절감을 이뤘습니다.
구현 방법
- Langfuse로 모든 LLM 호출 추적, 입력/출력 기록, latency와 비용 측정으로 관찰성 확보.
- 문제 발견→Trace 확인→Instruction 수정→재배포의 디버깅 사이클을 반복.
- 프롬프트 캐싱으로 시스템 프롬프트/툴 정의를 캐시해 입력 토큰 비용 50%, 지연 80% 감소.
- 이벤트 압축으로 대화 히스토리 토큰 수를 감소하고, Batch API로 대량 작업 비용을 50% 절감(배치당 최대 50,000건).
주요 결과
- Tool Description 품질 향상으로 Tool Selection 오류 80% 감소.
- 토큰 사용 최적화와 응답 속도 개선, 배치 API 도입으로 비용 절감 50%.
- 배치당 최대 50,000건 처리 가능.
