핵심 요약
현대자동차 CV AI LAB은 DeepSeek-R1를 통해 순수 강화 학습만으로 LLM의 추론 능력을 최적화하는 방법을 제시하고, GRPO와 PPO의 비교를 통해 RL 기반 학습의 효율성과 성능 개선을 입증했습니다.
구현 방법
- DeepSeek-R1-Zero: SFT 없이 RL만으로 학습하며 GRPO로 Critic 없이 다수의 답안을 그룹 비교 학습
- Cold Start 데이터셋 구축 및 Reasoning-oriented RL 보상 설계: CoT 데이터 포함, Language Consistency Reward 적용
- Distillation: 7B/14B 소형 모델로 지식 압축, Distilled 모델이 원본과 유사한 성능 유지
- 추가 성능 비교: OpenAI RLHF 대비 경쟁력 있는 추론 성능 확인
주요 결과
- 7B Distill-Qwen-7B가 QwQ-32B-Preview보다 성능이 우수
- GRPO를 통한 Critic 없는 학습으로 메모리/연산량 절감, PPO 대비 안정적 학습 가능
- 대형 모델에서의 강한 추론 능력을 소형 모델에 전이하는 증류 효과 확인


