微软发布TRELLIS.2 - 40亿参数的图像转3D生成模型
2025/12/18
TurboDiffusion 发布视频生成加速框架
清华大学机器学习团队近日开源了 TurboDiffusion,这是一个视频生成加速框架,可以在保持视频质量的同时,显著提升视频扩散模型的生成速度。
加速效果
根据官方测试,TurboDiffusion 在单个 RTX 5090 显卡上可以实现 100 到 205 倍的端到端扩散生成加速。
1.3B 模型加速效果
在 1.3B 参数的 Wan2.1 模型上,TurboDiffusion 的表现尤为突出:
- 原始模型:端到端生成时间约 166 秒
- TurboDiffusion:仅需 1.8 秒,实现约 92 倍加速
这意味着原本需要近 3 分钟才能完成的视频生成,现在只需要不到 2 秒就能完成。
14B 模型加速效果(480p 分辨率)
对于更大规模的 14B 参数模型,加速效果同样显著:
- 原始模型:端到端生成时间约 1635 秒(超过 27 分钟)
- FastVideo:约 23.2 秒
- TurboDiffusion:仅需 9.4 秒,相比原始模型实现约 174 倍加速
与其他加速方案相比,TurboDiffusion 在速度上仍然保持明显优势,比 FastVideo 快约 2.5 倍。
视频质量保持
重要的是,尽管生成速度大幅提升,TurboDiffusion 仍能保持与原始模型相近的视频质量。官方提供的对比演示显示,加速后的视频在画面细节、动作流畅度和整体质量上都与原始生成的视频保持一致。
技术特点
TurboDiffusion 采用了多项优化技术来实现加速,包括稀疏线性注意力(SLA)机制和 SageAttention 量化技术。这些技术可以在不显著影响视频质量的前提下,大幅减少计算量,从而提升生成速度。
框架支持基于 Wan2.1 模型的训练和推理,并提供了完整的训练代码和基础设施支持,包括 FSDP2、Ulysses CP 和选择性激活检查点等技术。
适用场景
该框架主要面向需要快速生成视频的应用场景,可以帮助用户大幅缩短视频生成时间,提高工作效率。
在实际应用中,TurboDiffusion 可以显著改善以下场景的使用体验:
- 创意预览:快速生成多个版本进行创意对比和选择
- 实时反馈:在调整参数时获得近乎实时的视觉反馈
- 批量生成:在相同时间内生成更多的视频内容
- 资源受限环境:在单卡设备上也能实现高效的视频生成
同时,框架保持了与原始模型相近的视频质量,适合对生成质量有要求的用户使用。
开源信息
TurboDiffusion 采用 Apache-2.0 许可证开源,代码和文档已在 GitHub 上公开。开发团队表示正在积极开发更多功能,包括优化并行计算、集成 vLLM-Omni、支持更多视频生成模型等。
查看演示效果
TurboDiffusion 在 GitHub 仓库中提供了多个实际生成案例的对比演示,包括不同场景、不同模型规模的测试结果。这些演示直观展示了加速前后的时间对比和视频质量对比,用户可以在项目主页查看完整的演示效果。
相关链接
- GitHub 仓库:https://github.com/thu-ml/TurboDiffusion
- 演示视频:https://github.com/thu-ml/TurboDiffusion#turbodiffusion
- 论文:TurboDiffusion: Accelerating Video Diffusion Models by 100—205 Times