핵심 요약
빅웨이브에이아이의 이원석 님의 리뷰는 RLHF를 중심으로 SFT, 보상 모델, PPO 및 KL 제약 등 LLM 성능 향상 기술의 흐름과 도구를 정리합니다.
주요 특징
- RLHF를 통한 사람 피드백 기반 강화학습 파이프라인 설명
- 보상 모델 학습: Prompt, Chosen Response, Reject Response 구성 및 Bradley-Terry 기반 확률 추정
- DPO(Direct Preference Optimization)와 Rejection Sampling(Best of N) 같은 대안 방법 제시
- PPO, KL 제약으로 안정성 확보 및 규제
- 트레이닝 도구로 TRL 같은 라이브러리 활용 사례
- 다수 모델(최소 3개) 간의 상호작용 필요성과 데이터 비용 등 도전 과제
적용 고려사항
- 리워드 모델 편향 및 해킹 방지, 학습 불안정성 관리
- 레퍼런스 모델 유지 및 데이터 구성의 품질 관리
- 컴퓨팅 자원 및 비용, 라이브러리 호환성 점검

