The Machine: AI가 AI 활용 코드를 평가하다

핵심 요약

무신사가 400여 명의 후보자 평가를 자동화하는 멀티 에이전트 하네스와 Markdown 지침서를 통해 파이프라인을 구현하고, 7단계 게이트 및 3-Tier Base/Depth 랭크로 채점을 수행하는 시스템을 구축했습니다.

독립 서브 에이전트를 후보자별로 생성해 컨텍스트를 격리
Markdown를 지침서로 사용해 파이프라인을 코드처럼 실행(Markdown as Code)
Init Stage, Security Gate, Preflight Gate, Quality Gate, Functional Gate, Scoring Stage, Report Stage의 7개 게이트 구성
입력 흐름에 GitHub 초대/제출 확인 포함
3-Tier(Base/Depth) 랭크와 7개 랭크 체계, 루브릭 캘리브레이션 반복 가능
출력은 JSON Schema로 고정 저장, n8n과 Grafana로 운영
면접 질문 자동 생성의 후처리 산출물 포함

독립 서브 에이전트를 후보자별로 생성해 컨텍스트를 격리
Markdown를 지침서로 사용해 파이프라인을 코드처럼 실행(Markdown as Code)
Init Stage, Security Gate, Preflight Gate, Quality Gate, Functional Gate, Scoring Stage, Report Stage의 7개 게이트 구성
입력 흐름에 GitHub 초대/제출 확인 포함
3-Tier(Base/Depth) 랭크와 7개 랭크 체계, 루브릭 캘리브레이션 반복 가능
출력은 JSON Schema로 고정 저장, n8n과 Grafana로 운영
면접 질문 자동 생성의 후처리 산출물 포함