Skill 품질 관리를 위한 Rubric 설계와 시스템 구현

핵심 요약

토스의 AI DX 팀이 Skill 품질 관리 Rubric를 설계하고 6섹션 30항목으로 시스템화하여, 규칙 검사와 모델 판정의 이중 게이트로 호출 품질을 보장하는 사례를 공유합니다.

주요 경험

문제 정의 및 목표 수립: 다수의 Skill이 제작되어도 호출되지 않는 현상과 형식/의미 판단의 분리 필요성을 제시했습니다.
설계 및 구현: 6섹션 30항목 Rubric으로 구성하고, 결정적 결함은 규칙 검사로 차단하며 의미 판단은 LLM 모델 판정으로 처리하는 두 단계 구조를 채택했습니다. 또한 BLOCKER가 하나라도 있으면 최종 등급이 F가 되도록 엄격한 게이트를 설정했습니다.
운영 자동화 및 배포: GitHub Actions로 자동 평가를 구현하고, PR 단계에서 요약과 상세 결과를 제공하며, 필요 시 Slack DM으로 알림을 보낼 수 있게 했습니다. 또한 Skill_path_filter를 통해 평가 범위를 제어하고 로컬에서 동일한 기준으로 셀프 체크하는 Claude Code 플러그인도 제공했습니다.

얻은 인사이트

두 단계 분리의 효과: 규칙 검사로 형식적 결함을 신속 차단하고, 모델 판정으로 의미 품질을 보완함으로써 비용과 정확성 사이의 균형을 달성했습니다.
트리거 판단의 안정성 강화: 트리거 관련 판단을 모델에 의존시키는 방향이 정형화된 규칙에 비해 다양한 표현을 안정적으로 포착하는 데 유리했습니다.
자동화의 리뷰 효율성: 평가 결과를 한 번에 요약해 제공하는 구조가 리뷰 부담을 줄이고, 향후 데이터 기반 개선(호출 빈도, 만족도 반영)을 가능하게 했습니다.

핵심 요약

주요 경험

문제 정의 및 목표 수립: 다수의 Skill이 제작되어도 호출되지 않는 현상과 형식/의미 판단의 분리 필요성을 제시했습니다.

설계 및 구현: 6섹션 30항목 Rubric으로 구성하고, 결정적 결함은 규칙 검사로 차단하며 의미 판단은 LLM 모델 판정으로 처리하는 두 단계 구조를 채택했습니다. 또한 BLOCKER가 하나라도 있으면 최종 등급이 F가 되도록 엄격한 게이트를 설정했습니다.

운영 자동화 및 배포: GitHub Actions로 자동 평가를 구현하고, PR 단계에서 요약과 상세 결과를 제공하며, 필요 시 Slack DM으로 알림을 보낼 수 있게 했습니다. 또한 Skill_path_filter를 통해 평가 범위를 제어하고 로컬에서 동일한 기준으로 셀프 체크하는 Claude Code 플러그인도 제공했습니다.

얻은 인사이트

두 단계 분리의 효과: 규칙 검사로 형식적 결함을 신속 차단하고, 모델 판정으로 의미 품질을 보완함으로써 비용과 정확성 사이의 균형을 달성했습니다.

트리거 판단의 안정성 강화: 트리거 관련 판단을 모델에 의존시키는 방향이 정형화된 규칙에 비해 다양한 표현을 안정적으로 포착하는 데 유리했습니다.

자동화의 리뷰 효율성: 평가 결과를 한 번에 요약해 제공하는 구조가 리뷰 부담을 줄이고, 향후 데이터 기반 개선(호출 빈도, 만족도 반영)을 가능하게 했습니다.

Skill 품질 관리를 위한 Rubric 설계와 시스템 구현

AI 요약

핵심 요약

주요 경험

얻은 인사이트

Claude Skills로 기술 콘텐츠 품질 관리 자동화하기

AI 리뷰를 신뢰할 수 있을까요?

2부: 정책을 따르는 평가자, LLM-as-a-Judge

Skill 품질 관리를 위한 Rubric 설계와 시스템 구현

AI 요약

핵심 요약

주요 경험

얻은 인사이트

Claude Skills로 기술 콘텐츠 품질 관리 자동화하기

AI 리뷰를 신뢰할 수 있을까요?

2부: 정책을 따르는 평가자, LLM-as-a-Judge

AI 요약

핵심 요약

주요 경험

얻은 인사이트

연관 피드

Claude Skills로 기술 콘텐츠 품질 관리 자동화하기

AI 리뷰를 신뢰할 수 있을까요?

2부: 정책을 따르는 평가자, LLM-as-a-Judge

AI 요약

핵심 요약

주요 경험

얻은 인사이트

연관 피드

Claude Skills로 기술 콘텐츠 품질 관리 자동화하기

AI 리뷰를 신뢰할 수 있을까요?

2부: 정책을 따르는 평가자, LLM-as-a-Judge