핵심 요약
인프랩이 오프라인에서도 작동하는 자막 생성 파이프라인을 구축하고 WhisperX + g5.xlarge를 활용해 28분 영상의 자막 전사를 59초에 완료하는 성과를 얻었습니다.
구현 방법
- 오프라인 자막 파이프라인 구성: ffmpeg로 WAV 추출 → whisperX(large-v2)로 전사 → srt 저장
- 음절 단위 타임라인 기반 줄 구성 및 가독성 개선 로직 구현: WhisperX 시간 추적 및 줄 재구성 규칙 적용
- GPU 기반 비용 최적화 및 운영 자동화: AWS Batch + Spot 인스턴스 활용, Go로 배치 생명주기 관리, IaC 구성
주요 결과
- 28분 영상 자막 59초에 전사하여 속도 대폭 향상
- 자막 일괄 생성 비용 약 807.22달러로 대규모 처리 비용 대폭 절감
- 가독성 개선 및 자막 수정 요청 관리 기능 시연
- 2개월 간의 인프라/배포 개선으로 프로덕션 출시 가능 수준 확보

