핵심 요약
하이퍼커넥트 MGAI 팀은 LLM-as-a-Judge를 통해 설명 문장의 Pass/Fail를 자동 평가하는 시스템을 구현했고, 정책 수립과 체크리스트 기반 판단으로 인간 전문가의 사고를 LLM에 이식했습니다.
구현 방법
- 정책을 체크리스트로 decomposition하고 각 항목에서 이진 판단만 수행하도록 설계
- Critique decomposition으로 전문가의 판단 근거를 단계별로 서술하게 함
- 평가 방식은 Pointwise(Binary)과 Single-aspect로 단순화하고, 정책은 “정책 적합성” 단일 기준으로 운영
- 모델 간 agreement를 목표 85%로 설정하고 일치도 측정 루프를 운영
- 배포 후 로그를 분석해 모니터링 및 데이터 품질 관리에 활용
주요 결과
- 내부 실험에서 인간 전문가 간 일치도에 근접한 약 84% 달성
- LLM Judge의 판단 로그로 모델 개선 방향 도출 2) 데이터 품질 관리 및 학습 데이터 정제에 적용
- 자동화 평가로 반복 실험 속도와 비용 효율성 향상

