핵심 요약
크리에이트립은 AI 코드 리뷰의 품질을 수치화하고 벤치마크로 개선했습니다. 초기 벤치마크 33점에서 시작해 8주간 반영률 61–63%, 노이즈 13.5%로 안정화되었습니다.
주요 경험
- 원본 PR의 버그를 역추적해 AI 리뷰의 검증 포인트를 벤치마크로 확립했다.
- 서브에이전트 도입은 탐지율·비용 증가로 실패해 메인 에이전트 중심 파이프라인으로 전환했다.
- Intent/Decisions 섹션과 PR 본문 맥락 보충으로 프롬프트 품질을 개선했다.
얻은 인사이트
- 벤치마크 오염 위험과 독립 파이프라인의 필요성을 확인했다.
- 질문 뱃지로 불확실성 관리와 양방향 소통이 강화됐다.
- 데이터 기반 의사결정으로 향후 액션의 신뢰성을 높였다.


