핵심 요약
NC Research의 MTQA·MQM 연구를 통해 기계 번역 품질 평가의 효율성과 서비스 안정성을 개선하고, 노이즈가 심한 게임 채팅 환경에서도 품질 관리 체계를 모색했습니다.
주요 경험
- MTQA를 대량 채팅 데이터에 적용해 번역 오류를 자동 모니터링하고 운영 효율을 높였습니다.
- COMET-QE, xCOMET, MQM, GEMBA-MQM 등 다양한 평가 방법을 도입해 비용과 해석 가능성을 비교했습니다.
얻은 인사이트
- 게임 도메인의 노이즈에 강건한 MT 모델의 필요성과 MQM의 오류 스팬 분석 가능성을 확인했습니다.
- LLM 기반 평가의 편의성은 크지만 비용과 제어 이슈가 있으며, 도메인 특성에 따라 신중한 적용이 필요합니다.



