Moait
홈인기 피드모든 블로그모든 태그
홈인기 피드모든 블로그모든 태그

Post-Training Generative Recommenders with Advantage-Weighted Supervised Finetuning

넷플릭스 favicon넷플릭스·AI/ML·
Reinforcement LearningAdvantage Weighted Supervised Fine TuningPost Training Generative RecommendersContextual BanditReward Model
2025년 10월 25일8

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

넷플릭스가 포스트 트레이닝 제너레이티브 리커멘더링에서 A-SFT를 제안하고, 불확실한 보상 모델에서도 방향성 신호를 활용해 성능 정합성을 높인 연구를 공개했습니다.

구현 방법

  • 감독 학습과 어드밴티지 가중치를 결합한 A-SFT 도입
  • IPS 없이 로그 정책 의존성 감소 및 실제 사용자 데이터 적용
  • 보상 모델의 일반화에 기반한 학습 전략 채택
  • 컨텍스추얼 밴딧 관점으로 학습 설계
  • PPO/DPO/CQL 등 벤치마크와의 비교 평가

주요 결과

  • A-SFT가 BC 및 보상 의존 방법 대비 더 나은 정합성과 성능을 보임
  • 노이즈 많은 보상 환경에서도 효과적임을 확인

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!
RLHF - 어떻게 LLM의 성능을 향상시킬 수 있을까? 섬네일
74%

RLHF - 어떻게 LLM의 성능을 향상시킬 수 있을까?

빅웨이브에이아이 favicon빅웨이브에이아이·2024년 01월 24일
밑바닥에서 개선한 추천시스템 with Two-Tower Model 섬네일
69%

밑바닥에서 개선한 추천시스템 with Two-Tower Model

KREAM faviconKREAM·2025년 08월 06일
MLOps기반 개인화 Content추천 섬네일
66%

MLOps기반 개인화 Content추천

케이뱅크 테크 favicon케이뱅크 테크·2023년 06월 28일