Moait
홈인기 피드모든 블로그모든 태그
홈인기 피드모든 블로그모든 태그
T4 GPU 1장으로 일궈낸 올리브영의 Gemma 3 기반 sLLM 구축기 섬네일

T4 GPU 1장으로 일궈낸 올리브영의 Gemma 3 기반 sLLM 구축기

올리브영 favicon올리브영·AI/ML·
LoRAQLoRAsLLMGemmaSFT
2026년 01월 21일1

AI 요약

이 글은 AI가 요약했어요. 정확한 내용은 꼭 원문을 확인해 주세요!

핵심 요약

올리브영이 Gemma3-4B-IT 기반의 sLLM을 SFT로 도메인 적응하고 텍스트 입력만으로 동작하도록 최적화해, 16GB GPU 환경에서 리뷰 테마 표현을 안정적으로 생성하도록 서비스에 도입했다.

구현 방법

  • Gemma3-4B-IT를 기반으로 도메인 특화 SFT 수행
  • 텍스트 전용 로딩으로 비전 타워 제거, LoRA+QLoRA 및 4비트 양자화로 VRAM 절감
  • 프롬프트 축약으로 토큰 비용 대폭 감소 및 배치 처리 속도 향상(528자 → 98자, 약 81% 축약)

주요 결과

  • 배치 16에서 구현 속도 약 0.6초 확보
  • 프롬프트 단축으로 비용 약 81% 절감 및 처리량 약 5.3배 증가
  • 상용 LLM 대비 약간의 정확도 손실(약 5%p 이내)에도 운영 비용과 속도 측면에서 서비스에 적합한 품질 확보
  • 재현성 및 버전 관리 강화, Human-in-the-Loop 검수로 품질 신뢰성 확보

연관 피드

%가 높을수록 이 글과 비슷할 가능성이 높아요!
SageMaker AI로 해보는 GPT-OSS 추론 성능 테스트와 용량 산정 섬네일
73%

SageMaker AI로 해보는 GPT-OSS 추론 성능 테스트와 용량 산정

AWS faviconAWS·2025년 10월 24일
Post-LLM 시대: 조합형 AI 생태계에 대한 아키텍처 분석 섬네일
72%

Post-LLM 시대: 조합형 AI 생태계에 대한 아키텍처 분석

한글과컴퓨터 favicon한글과컴퓨터·2025년 09월 17일
JobKorea LOOP 에이전트 개발기: 5. 멀티에이전트시스템을 위한 안내서 — 이론편 섬네일
72%

JobKorea LOOP 에이전트 개발기: 5. 멀티에이전트시스템을 위한 안내서 — 이론편

잡코리아 favicon잡코리아·2025년 09월 09일