Microsoft, TRELLIS.2 발표 - 40억 파라미터 이미지-to-3D 생성 모델
2025. 12. 18.
TurboDiffusion, 비디오 생성 가속 프레임워크 출시
칭화대학교 머신러닝 팀은 최근 TurboDiffusion을 오픈소스로 공개했습니다. 이는 비디오 품질을 유지하면서 비디오 확산 모델의 생성 속도를 크게 향상시키는 비디오 생성 가속 프레임워크입니다.
가속 성능
공식 테스트에 따르면, TurboDiffusion은 RTX 5090 그래픽 카드 한 장에서 100배에서 205배의 엔드투엔드 확산 생성 가속을 달성합니다.
1.3B 모델 가속 성능
1.3B 파라미터의 Wan2.1 모델에서 TurboDiffusion의 성능은 특히 뛰어납니다:
- 원본 모델: 엔드투엔드 생성 시간 약 166초
- TurboDiffusion: 단 1.8초 소요, 약 92배 가속 달성
이는 원래 3분 가까이 걸렸던 비디오 생성이 이제 2초 미만에 완료될 수 있음을 의미합니다.
14B 모델 가속 성능 (480p 해상도)
더 큰 규모의 14B 파라미터 모델에서도 가속 효과는 마찬가지로 현저합니다:
- 원본 모델: 엔드투엔드 생성 시간 약 1635초 (27분 이상)
- FastVideo: 약 23.2초
- TurboDiffusion: 단 9.4초 소요, 원본 모델 대비 약 174배 가속 달성
다른 가속 솔루션과 비교하여 TurboDiffusion은 여전히 명확한 속도 우위를 유지하며, FastVideo보다 약 2.5배 빠릅니다.
비디오 품질 유지
중요한 것은, 생성 속도의 극적인 향상에도 불구하고 TurboDiffusion이 원본 모델에 가까운 비디오 품질을 유지한다는 것입니다. 공식 비교 데모는 가속된 비디오가 이미지 세부사항, 움직임 부드러움, 전체적인 품질 면에서 원래 생성된 비디오와 일관성을 유지함을 보여줍니다.
기술적 특징
TurboDiffusion은 희소 선형 어텐션(SLA) 메커니즘과 SageAttention 양자화 기술을 포함한 여러 최적화 기법을 사용하여 가속을 달성합니다. 이러한 기술들은 비디오 품질에 크게 영향을 주지 않으면서 계산 부하를 대폭 줄여 생성 속도를 향상시킵니다.
프레임워크는 Wan2.1 모델 기반 훈련과 추론을 지원하며, FSDP2, Ulysses CP, 선택적 활성화 체크포인트 등의 기술을 포함한 완전한 훈련 코드와 인프라 지원을 제공합니다.
적용 시나리오
이 프레임워크는 주로 빠른 비디오 생성이 필요한 애플리케이션 시나리오를 대상으로 하며, 사용자가 비디오 생성 시간을 크게 줄이고 작업 효율성을 향상시키는 데 도움이 됩니다.
실제 애플리케이션에서 TurboDiffusion은 다음 시나리오에서 사용자 경험을 크게 개선할 수 있습니다:
- 창작 미리보기: 창작 비교와 선택을 위해 여러 버전을 빠르게 생성
- 실시간 피드백: 파라미터 조정 시 거의 실시간 시각적 피드백 획득
- 배치 생성: 같은 시간에 더 많은 비디오 콘텐츠 생성
- 자원 제약 환경: 단일 카드 장치에서도 효율적인 비디오 생성 달성
또한 프레임워크는 원본 모델에 가까운 비디오 품질을 유지하여 높은 생성 품질을 요구하는 사용자에게 적합합니다.
오픈소스 정보
TurboDiffusion은 Apache-2.0 라이선스 하에 오픈소스로 제공되며, 코드와 문서가 GitHub에 공개되어 있습니다. 개발팀은 병렬 계산 최적화, vLLM-Omni 통합, 더 많은 비디오 생성 모델 지원 등 더 많은 기능을 적극적으로 개발하고 있다고 밝혔습니다.
데모 효과 확인
TurboDiffusion은 GitHub 저장소에서 다양한 시나리오와 다른 모델 규모의 테스트 결과를 포함한 여러 실제 생성 사례의 비교 데모를 제공합니다. 이러한 데모는 가속 전후의 시간 비교와 비디오 품질 비교를 직관적으로 보여주며, 사용자는 프로젝트 홈페이지에서 완전한 데모 효과를 확인할 수 있습니다.
관련 링크
- GitHub 저장소: https://github.com/thu-ml/TurboDiffusion
- 데모 비디오: https://github.com/thu-ml/TurboDiffusion#turbodiffusion
- 논문: TurboDiffusion: Accelerating Video Diffusion Models by 100—205 Times