핵심 요약
Naver Search Data & Analytics가 대화형 검색의 평가 프레임워크를 분석하고, 오프라인/온라인 평가의 한계와 향후 방향을 제시했습니다.
주요 경험
- 오프라인 평가의 표준 데이터셋 부재로 Multi-turn Dialog 평가 도입의 필요성이 강조되었습니다.
- 온라인 평가는 사용자 피드백 기반의 만족도 예측으로 품질 신뢰성을 높일 수 있다는 가능성을 시사했습니다.
- 연구를 토대로 오프라인–온라인 평가를 연결하는 프레임워크의 필요성이 제기되었습니다.
얻은 인사이트
- 평가의 핵심은 관련성에서 타당성/신뢰성으로의 확장이라는 점이 확인되었습니다.
- 데이터 사이언스 기반의 평가 방법론과 지표의 중요성이 재확인되었습니다.
- 연구 결과를 실무에 적용하기 위한 체계 정립의 필요성이 보였습니다.



