핵심 요약
올리브영이 Gemma3-4B-IT 기반의 sLLM을 SFT로 도메인 적응하고 텍스트 입력만으로 동작하도록 최적화해, 16GB GPU 환경에서 리뷰 테마 표현을 안정적으로 생성하도록 서비스에 도입했다.
구현 방법
- Gemma3-4B-IT를 기반으로 도메인 특화 SFT 수행
- 텍스트 전용 로딩으로 비전 타워 제거, LoRA+QLoRA 및 4비트 양자화로 VRAM 절감
- 프롬프트 축약으로 토큰 비용 대폭 감소 및 배치 처리 속도 향상(528자 → 98자, 약 81% 축약)
주요 결과
- 배치 16에서 구현 속도 약 0.6초 확보
- 프롬프트 단축으로 비용 약 81% 절감 및 처리량 약 5.3배 증가
- 상용 LLM 대비 약간의 정확도 손실(약 5%p 이내)에도 운영 비용과 속도 측면에서 서비스에 적합한 품질 확보
- 재현성 및 버전 관리 강화, Human-in-the-Loop 검수로 품질 신뢰성 확보



