핵심 요약
넷플릭스 연구팀은 Vera(레이어드 비디오 디퓨전)와 VOID(물리적으로 일관된 인페인팅)를 통해 원본을 보존하면서 편집을 제어하는 비디오 편집 연구를 공개했다.
구현 방법
- Vera: 편집 레이어, 알파 매트, 합성 레이어를 분리하고 세 가지 DiT를 혼합해 교차 self-attention으로 상호 작용
- 인퍼런스: 소스 영상과 텍스트 편집 지시를 받아 편집 레이어와 알파 매트를 생성, 합성 영상 산출
- 데이터: 486k 프레임, 832×480, Synthetic/Realistic/Realistic Multi-Object 세트
주요 결과
- 콘텐츠 보존성 우수, 편집 지시 이행, 영상 품질도 양호
- Vera-1.3B/14B 및 VOID의 2패스 인페인팅으로 현장성 향상
- 인간 평가에서 Vera가 Baselines 대비 선호도 높음; VOID는 64.8% 선택


