핵심 요약
NC Research가 LLM 평가모델 편향 문제를 다루는 OffsetBias 연구를 발표했습니다. 6가지 Bias 유형을 정의한 EvalBiasBench를 구축했고, OffsetBias 데이터를 학습에 반영한 모델이 EvalBiasBench에서 85%의 성능을 달성했습니다. Reward Model 학습 등 활용 가능성도 제시합니다.
주요 경험
- Bias 유형 식별 및 벤치마크 구축
- OffsetBias 데이터 생성 및 모델 검증
- 오픈소스 학습 데이터로도 성능 향상 확인
얻은 인사이트
- 데이터 보충으로 편향을 상쇄할 수 있으며, 전반적 평가 능력이 향상됩니다
- Bias에 강건한 평가모형은 텍스트 품질 평가의 안정성과 학습 효율성에 기여합니다


