핵심 요약
토스의 AI DX 팀이 Skill 품질 관리 Rubric를 설계하고 6섹션 30항목으로 시스템화하여, 규칙 검사와 모델 판정의 이중 게이트로 호출 품질을 보장하는 사례를 공유합니다.
주요 경험
- 문제 정의 및 목표 수립: 다수의 Skill이 제작되어도 호출되지 않는 현상과 형식/의미 판단의 분리 필요성을 제시했습니다.
- 설계 및 구현: 6섹션 30항목 Rubric으로 구성하고, 결정적 결함은 규칙 검사로 차단하며 의미 판단은 LLM 모델 판정으로 처리하는 두 단계 구조를 채택했습니다. 또한 BLOCKER가 하나라도 있으면 최종 등급이 F가 되도록 엄격한 게이트를 설정했습니다.
- 운영 자동화 및 배포: GitHub Actions로 자동 평가를 구현하고, PR 단계에서 요약과 상세 결과를 제공하며, 필요 시 Slack DM으로 알림을 보낼 수 있게 했습니다. 또한 Skill_path_filter를 통해 평가 범위를 제어하고 로컬에서 동일한 기준으로 셀프 체크하는 Claude Code 플러그인도 제공했습니다.
얻은 인사이트
- 두 단계 분리의 효과: 규칙 검사로 형식적 결함을 신속 차단하고, 모델 판정으로 의미 품질을 보완함으로써 비용과 정확성 사이의 균형을 달성했습니다.
- 트리거 판단의 안정성 강화: 트리거 관련 판단을 모델에 의존시키는 방향이 정형화된 규칙에 비해 다양한 표현을 안정적으로 포착하는 데 유리했습니다.
- 자동화의 리뷰 효율성: 평가 결과를 한 번에 요약해 제공하는 구조가 리뷰 부담을 줄이고, 향후 데이터 기반 개선(호출 빈도, 만족도 반영)을 가능하게 했습니다.

