핵심 요약
인포그랩은 NEXA에 Langfuse의 LLM-as-a-Judge Evaluator를 적용해 에이전트의 도구 사용 능력을 평가했습니다. 평가 결과는 Score와 코멘트로 산출되며, 각 채팅 실행 로그에 기록됩니다.
주요 경험
- 도구 정확성, 도구 선택의 적합성, 매개변수 처리, 순차적 의사결정의 종합 평가 체계 구축
- 프롬프트 설계로 도구 호출의 정확성 판단 및 외부 정보 사용 여부를 일관성 있게 평가
얻은 인사이트
- LLM-as-a-Judge의 자동화로 수천 건의 응답 평가가 가능해지며, 품질 판단의 재현성과 확장성이 향상
- Langfuse 및 Arize AI와의 연동으로 프로덕션 환경에서도 활용 가능성이 확인

