Skip to content
Follow me on X
ComfyUI Wiki
新闻TurboDiffusion 发布视频生成加速框架

TurboDiffusion 发布视频生成加速框架

清华大学机器学习团队近日开源了 TurboDiffusion,这是一个视频生成加速框架,可以在保持视频质量的同时,显著提升视频扩散模型的生成速度。

加速效果

根据官方测试,TurboDiffusion 在单个 RTX 5090 显卡上可以实现 100 到 205 倍的端到端扩散生成加速。

1.3B 模型加速效果

在 1.3B 参数的 Wan2.1 模型上,TurboDiffusion 的表现尤为突出:

  • 原始模型:端到端生成时间约 166 秒
  • TurboDiffusion:仅需 1.8 秒,实现约 92 倍加速

这意味着原本需要近 3 分钟才能完成的视频生成,现在只需要不到 2 秒就能完成。

14B 模型加速效果(480p 分辨率)

对于更大规模的 14B 参数模型,加速效果同样显著:

  • 原始模型:端到端生成时间约 1635 秒(超过 27 分钟)
  • FastVideo:约 23.2 秒
  • TurboDiffusion:仅需 9.4 秒,相比原始模型实现约 174 倍加速

与其他加速方案相比,TurboDiffusion 在速度上仍然保持明显优势,比 FastVideo 快约 2.5 倍。

视频质量保持

重要的是,尽管生成速度大幅提升,TurboDiffusion 仍能保持与原始模型相近的视频质量。官方提供的对比演示显示,加速后的视频在画面细节、动作流畅度和整体质量上都与原始生成的视频保持一致。

技术特点

TurboDiffusion 采用了多项优化技术来实现加速,包括稀疏线性注意力(SLA)机制和 SageAttention 量化技术。这些技术可以在不显著影响视频质量的前提下,大幅减少计算量,从而提升生成速度。

框架支持基于 Wan2.1 模型的训练和推理,并提供了完整的训练代码和基础设施支持,包括 FSDP2、Ulysses CP 和选择性激活检查点等技术。

适用场景

该框架主要面向需要快速生成视频的应用场景,可以帮助用户大幅缩短视频生成时间,提高工作效率。

在实际应用中,TurboDiffusion 可以显著改善以下场景的使用体验:

  • 创意预览:快速生成多个版本进行创意对比和选择
  • 实时反馈:在调整参数时获得近乎实时的视觉反馈
  • 批量生成:在相同时间内生成更多的视频内容
  • 资源受限环境:在单卡设备上也能实现高效的视频生成

同时,框架保持了与原始模型相近的视频质量,适合对生成质量有要求的用户使用。

开源信息

TurboDiffusion 采用 Apache-2.0 许可证开源,代码和文档已在 GitHub 上公开。开发团队表示正在积极开发更多功能,包括优化并行计算、集成 vLLM-Omni、支持更多视频生成模型等。

查看演示效果

TurboDiffusion 在 GitHub 仓库中提供了多个实际生成案例的对比演示,包括不同场景、不同模型规模的测试结果。这些演示直观展示了加速前后的时间对比和视频质量对比,用户可以在项目主页查看完整的演示效果。

相关链接