핵심 요약
NC Research의 VARCO Arena는 참조 답안 없이도 LLM 후보를 토너먼트+엘로(Elo) 방식으로 순위를 매기는 벤치마크 프레임워크입니다.
구현 방법
- 싱글-Elimination 토너먼트와 Elo rating 결합
- MATCH, TOURNAMENT, TOURNAMENT2LEADERBOARD 로직 운영
- LLM Judge로 답변 비교, 매 토너먼트 대진은 무작위 구성
주요 결과
- 참조 답안 의존 없이도 정확한 순위 산출 가능
- 비교 비용 감소 및 벤치마크 효율성 증가
- 다양한 벤치마크 데이터와의 높은 일치도 확인


