핵심 요약
인포그랩은 NEXA의 엔터프라이즈 에이전트를 LLM-as-a-Judge로 평가해 도구 호출 및 매개변수 정확성을 분석한 사례를 공유합니다.
주요 경험
- 에이전트 도구 호출 여부와 매개변수 처리 정확성 평가 프레임워크를 도입
- 프롬프트 설계와 0/1 점수 체계, 코멘트 자동화 프로세스를 구성
- Langfuse Evaluator를 활용한 대규모 로그 기반 평가의 확장성 확인
얻은 인사이트
- 도구 선택의 정밀도와 재현율 균형이 핵심임
- 자동 평가의 비용 효율성과 재현성이 우수함
- 에이전트 평가의 방향은 성능의 신뢰성과 일관성에 집중해야 함

