핵심 요약
현대자동차가 자율주행 AI 모델 학습에 합성 데이터를 도입해 실제 데이터와의 보완 효과를 분석했다. Real+Syn 조합은 도메인 갭에도 불구하고 일반화 가능성을 시사했으며, 합성 데이터의 견고한 활용 방안이 실제 개발에 도움될 수 있음을 확인했다.
구현 방법
- 데이터 분포 분석: Real(cone 3%, human 7%, terrain 7%), Syn(cone 20%, human 16%, terrain 20%), Real+Syn(human 8%, cone 5%, terrain 8%)으로 비교
- 합성 데이터 생성 및 학습: 저성능 클래스에 집중해 Real+Syn 분포를 구성하고 7개 클래스 학습에 적용
- 실험 구성: Real 데이터의 낮은 클래스 성능 보완 여부를 평가
주요 결과
- 전체 성능이 Real 단독 대비 유사하거나 약간 향상
- 저분포 클래스에 대한 합성 데이터의 보강 효과 확인
- DDDL 기반 데이터 구축의 중요성 재확인