핵심 요약
넷플릭스가 포스트 트레이닝 제너레이티브 리커멘더링에서 A-SFT를 제안하고, 불확실한 보상 모델에서도 방향성 신호를 활용해 성능 정합성을 높인 연구를 공개했습니다.
구현 방법
- 감독 학습과 어드밴티지 가중치를 결합한 A-SFT 도입
- IPS 없이 로그 정책 의존성 감소 및 실제 사용자 데이터 적용
- 보상 모델의 일반화에 기반한 학습 전략 채택
- 컨텍스추얼 밴딧 관점으로 학습 설계
- PPO/DPO/CQL 등 벤치마크와의 비교 평가
주요 결과
- A-SFT가 BC 및 보상 의존 방법 대비 더 나은 정합성과 성능을 보임
- 노이즈 많은 보상 환경에서도 효과적임을 확인

