핵심 요약
구글이 LiteRT의 Qualcomm AI Engine Direct(QNN) Accelerator를 통해 Android에서 온-디바이스 GenAI를 위한 NPU 파워를 확장하고, 모바일 배포 워크플로우를 통합하며 CPU 대비 최대 100배 속도 향상과 전체 모델 위임을 구현했습니다. FastVLM-0.5B는 Snapdragon 8 Elite Gen 5 NPU에서 11,000 tokens/sec 프리필을 달성했습니다.
주요 특징
- QNN Accelerator로 NPU 파워를 전용화
- 모바일 배포 워크플로우 단일화
- CPU 대비 최대 100x 속도 향상 및 전체 모델 위임
적용 고려사항
- Android에서 QNN Accelerator 활용 필요
- Snapdragon 8 Elite Gen 5 NPU 기반 기기에서의 검증 및 최적화 필요

