핵심 요약
루닛은 REINFORCE에서 Dr.GRPO까지의 RL 학습 체인을 통해 의학 LLM과 전문 에이전트의 추론 능력 향상을 위한 설계 원칙을 제시했다.
주요 경험
- REINFORCE에서 시작해 Actor-Critic, GAE, TRPO, PPO, RLHF, GRPO, Dr.GRPO로 이어지는 체인에서 각 단계의 한계를 보완하는 원칙을 제시했다.
- 보상-가치 분리로 baseline과 크리틱을 도입해 학습 안정성과 성능을 높였다.
- GAE와 stop-gradient를 통해 편향-분산 균형을 효과적으로 다루었다. 또한 의학 도메인에서 안전하고 근거 있는 추론의 필요성을 강조했다.
얻은 인사이트
- 보상 신호 품질이 추론 능력의 핵심이며 근거 제시의 신뢰도에도 직결된다.
- 크리틱 기반 어드밴티지 추정과 GAE가 의료 추론의 안정성에 기여한다.
- 학습 안정성을 위해 보상 anchoring과 계산 그래프 제어의 필요성을 확인했다.

