핵심 요약
Naver Search Data & Analytics가 생성형 검색(RAG) 평가의 최신 트렌드를 정리했습니다. LangSmith와 Weights & Biases의 평가 플랫폼 등장과 RAGAs 프레임워크의 표준화 흐름이 주요 포인트입니다.
주요 경험
- LLM Ops 등 플랫폼에서 평가 데이터셋 등록과 지표 기반 평가가 통일되는 흐름을 확인
- RAG 평가 지표의 다양화와 세분화가 진행되며 RAGAs가 표준으로 자리잡는 흐름을 파악
- LC 대 RAG 비교를 통해 외부 지식 주입 방식의 차이를 이해
얻은 인사이트
- 인용 신뢰성(Faithfulness)와 컨텍스트 품질의 중요성에 관한 논의가 확산
- 평가 과정의 보고 필요성과 지표 정의의 일관성이 중요해짐

