핵심 요약
현대자동차가 Pruning 기법과 AIMET를 활용해 딥러닝 네트워크를 경량화하고, 3D 객체 인식 성능을 유지하면서 Latency를 약 30% 낮춘 사례를 소개했습니다.
구현 방법
- AIMET 기반 Channel Pruning 파이프라인 구성: Greedy Compression Ratio로 layer별 최적 비율을 선정하고, 메모리(Memory) 또는 MAC를 기준으로 압축 비율을 적용합니다.
- Channel Pruning의 3단계 구현: Channel selection(가장 작은 규모의 채널 우선 제거), Winnowing(선택된 채널에 따라 입력 채널 제거), Weight와 bias 재구성(선형 회귀로 재조정).
- 모델 압축 실행 흐름: layer별 최적 비율 도출 후 Channel Pruning으로 실제 압축을 수행하고, 3D 객체 인식 등 적용 사례에서 성능 및 추론 효율을 확인합니다.
주요 결과
- Latency 약 30% 감소, 대상 HW에서 실시간 추론 효율 향상
- 정확도는 원본 대비 유사하거나 1~2% 소폭 감소로 유지
- 예시로 채널 수가 256에서 25로 대폭 축소되어 구조적 압축 효과 확인