Moait
홈인기 피드모든 블로그모든 태그
홈인기 피드모든 블로그모든 태그
Skill 품질 관리를 위한 Rubric 설계와 시스템 구현 섬네일

Skill 품질 관리를 위한 Rubric 설계와 시스템 구현

토스 favicon토스·DevOps·
PythonLLMGitHub ActionsClaudeYAML
2026년 06월 08일0

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

토스의 AI DX 팀이 Skill 품질 관리 Rubric를 설계하고 6섹션 30항목으로 시스템화하여, 규칙 검사와 모델 판정의 이중 게이트로 호출 품질을 보장하는 사례를 공유합니다.

주요 경험

  • 문제 정의 및 목표 수립: 다수의 Skill이 제작되어도 호출되지 않는 현상과 형식/의미 판단의 분리 필요성을 제시했습니다.
  • 설계 및 구현: 6섹션 30항목 Rubric으로 구성하고, 결정적 결함은 규칙 검사로 차단하며 의미 판단은 LLM 모델 판정으로 처리하는 두 단계 구조를 채택했습니다. 또한 BLOCKER가 하나라도 있으면 최종 등급이 F가 되도록 엄격한 게이트를 설정했습니다.
  • 운영 자동화 및 배포: GitHub Actions로 자동 평가를 구현하고, PR 단계에서 요약과 상세 결과를 제공하며, 필요 시 Slack DM으로 알림을 보낼 수 있게 했습니다. 또한 Skill_path_filter를 통해 평가 범위를 제어하고 로컬에서 동일한 기준으로 셀프 체크하는 Claude Code 플러그인도 제공했습니다.

얻은 인사이트

  • 두 단계 분리의 효과: 규칙 검사로 형식적 결함을 신속 차단하고, 모델 판정으로 의미 품질을 보완함으로써 비용과 정확성 사이의 균형을 달성했습니다.
  • 트리거 판단의 안정성 강화: 트리거 관련 판단을 모델에 의존시키는 방향이 정형화된 규칙에 비해 다양한 표현을 안정적으로 포착하는 데 유리했습니다.
  • 자동화의 리뷰 효율성: 평가 결과를 한 번에 요약해 제공하는 구조가 리뷰 부담을 줄이고, 향후 데이터 기반 개선(호출 빈도, 만족도 반영)을 가능하게 했습니다.

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!
No Image
72%

Claude Skills로 기술 콘텐츠 품질 관리 자동화하기

인포그랩 favicon인포그랩·2026년 02월 11일
No Image
71%

AI 리뷰를 신뢰할 수 있을까요?

크리에이트립 favicon크리에이트립·2026년 04월 16일
2부: 정책을 따르는 평가자, LLM-as-a-Judge 섬네일
70%

2부: 정책을 따르는 평가자, LLM-as-a-Judge

하이퍼커넥트 favicon하이퍼커넥트·2026년 04월 22일