핵심 요약
현대자동차가 양자화 기법을 도입해 FP32 네트워크를 INT8로 변환하고, PTQ와 QAT를 통해 최적화를 수행한 사례를 Nvidia의 도구로 구현했습니다.
구현 방법
- PTQ: 데이터 보정(calibration)과 representative 데이터 활용으로 양자화 범위를 결정
- 하드웨어 특성 고려: skip connection/concatenation은 quantization 제외로 수동 구현 필요
- QAT: qdq 레이어를 포함한 학습으로 FP32와 유사한 파이프라인 재구성
- ONNX 비교: FP32 대비 INT8에서 약 67% latency 저감 확인
주요 결과
- latency 약 67% 개선
- 양자화 성공 및 ONNX 상의 INT8 성능 확인