Moait
홈인기 피드모든 블로그모든 태그
홈인기 피드모든 블로그모든 태그
[딥러닝 경량화] 딥러닝 네트워크 양자화(quantization)는 왜 필요할까? 섬네일

[딥러닝 경량화] 딥러닝 네트워크 양자화(quantization)는 왜 필요할까?

현대자동차 favicon현대자동차·AI/ML·
PyTorchQuantizationTensorRTONNX
2024년 09월 03일0

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

현대자동차가 양자화 기법을 도입해 FP32 네트워크를 INT8로 변환하고, PTQ와 QAT를 통해 최적화를 수행한 사례를 Nvidia의 도구로 구현했습니다.

구현 방법

  • PTQ: 데이터 보정(calibration)과 representative 데이터 활용으로 양자화 범위를 결정
  • 하드웨어 특성 고려: skip connection/concatenation은 quantization 제외로 수동 구현 필요
  • QAT: qdq 레이어를 포함한 학습으로 FP32와 유사한 파이프라인 재구성
  • ONNX 비교: FP32 대비 INT8에서 약 67% latency 저감 확인

주요 결과

  • latency 약 67% 개선
  • 양자화 성공 및 ONNX 상의 INT8 성능 확인

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!
[딥러닝 경량화] Pruning 기법으로 딥러닝 네트워크 경량화하기: 개념과 실제 적용 사례 섬네일
73%

[딥러닝 경량화] Pruning 기법으로 딥러닝 네트워크 경량화하기: 개념과 실제 적용 사례

현대자동차 favicon현대자동차·2024년 11월 24일
업무 효율화를 성공시킨 "임베디드 보드 성능 예측 AI 모델" 개발기 섬네일
72%

업무 효율화를 성공시킨 "임베디드 보드 성능 예측 AI 모델" 개발기

현대자동차 favicon현대자동차·2025년 02월 26일
NPU: AI 효율을 극대화하는 전용 프로세서 섬네일
69%

NPU: AI 효율을 극대화하는 전용 프로세서

현대자동차 favicon현대자동차·2025년 05월 01일