핵심 요약
AWS가 ComfyUI 기반 워크플로우로 Wan2.1 1.3B 모델을 활용한 AI 비디오 생성 파이프라인을 구축하고, Ray Serve로 확장 가능한 추론 서비스를 제공합니다.
구현 방법
- Wan-VAE + DiT + 텍스트 인코더로 고해상도 비디오의 latent를 생성하는 Diffusion Transformer 구성
- FSDP와 xDiT의 USP로 다GPU 병렬 추론 최적화
주요 결과
- Text 인코더 0.54초, VAE 0.83초, DiT 0.13초로 로딩 캐시 후 속도 개선
- 추론 시간 50초에서 48초로 단축
- g6e.xlarge가 비용 효율적이며 AMI 기반 확장으로 운영 용이


