Moait
홈인기 피드모든 블로그모든 태그
홈인기 피드모든 블로그모든 태그
DeepSeek-R1:강화 학습을 활용한 추론 최적화 섬네일

DeepSeek-R1:강화 학습을 활용한 추론 최적화

현대자동차 favicon현대자동차·AI/ML·
LLMDeepSeekReinforcement LearningPPOGRPO
2025년 04월 16일0

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

현대자동차 CV AI LAB은 DeepSeek-R1를 통해 순수 강화 학습만으로 LLM의 추론 능력을 최적화하는 방법을 제시하고, GRPO와 PPO의 비교를 통해 RL 기반 학습의 효율성과 성능 개선을 입증했습니다.

구현 방법

  • DeepSeek-R1-Zero: SFT 없이 RL만으로 학습하며 GRPO로 Critic 없이 다수의 답안을 그룹 비교 학습
  • Cold Start 데이터셋 구축 및 Reasoning-oriented RL 보상 설계: CoT 데이터 포함, Language Consistency Reward 적용
  • Distillation: 7B/14B 소형 모델로 지식 압축, Distilled 모델이 원본과 유사한 성능 유지
  • 추가 성능 비교: OpenAI RLHF 대비 경쟁력 있는 추론 성능 확인

주요 결과

  • 7B Distill-Qwen-7B가 QwQ-32B-Preview보다 성능이 우수
  • GRPO를 통한 Critic 없는 학습으로 메모리/연산량 절감, PPO 대비 안정적 학습 가능
  • 대형 모델에서의 강한 추론 능력을 소형 모델에 전이하는 증류 효과 확인

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!
RLHF - 어떻게 LLM의 성능을 향상시킬 수 있을까? 섬네일
77%

RLHF - 어떻게 LLM의 성능을 향상시킬 수 있을까?

빅웨이브에이아이 favicon빅웨이브에이아이·2024년 01월 24일
최신 논문 분석을 통한 LLM의 환각 현상 완화 전략 탐구 섬네일
74%

최신 논문 분석을 통한 LLM의 환각 현상 완화 전략 탐구

한글과컴퓨터 favicon한글과컴퓨터·2025년 07월 17일
OffsetBias: 평가모델의 Bias 문제와 극복 방법 섬네일
69%

OffsetBias: 평가모델의 Bias 문제와 극복 방법

NC Research faviconNC Research·2025년 01월 08일