핵심 요약
AWS Inferentia/Trainium 환경에서 Nota AI의 NetsPresso(NxD Inference)로 LLM 양자화를 수행해 모델 크기와 추론 메모리를 대폭 줄이고, 정확도 손실을 최소화하는 방안을 제시했습니다.
구현 방법
- NxD Inference 및 NeuronConfig를 활용한 int8 per_channel_symmetric 양자화, KV cache는 fp8로 양자화
- 모듈 민감도 분석 기반의 선택적 양자화: lm_head, layernorm, self_attn 등 민감 모듈 제외
- Autoround 방식의 fake-quantization으로 NxD 호환성 유지
주요 결과
- 기본 양자화로 모델 크기 약 45%, 추론 메모리 약 35% 감소
- GSM8k에서 손실을 -8.3%까지 완화, Autoround+Selective로 -4.2%까지 추가 개선
- 원본 모델 24.1GB → 양자화 후 13.2GB


