Skip to content
ComfyUI Wiki
帮助构建更好的 ComfyUI 知识库 成为赞助者
新闻PUSA V1.0:低成本高性能视频生成模型发布

PUSA V1.0:低成本高性能视频生成模型发布

2025年7月16日,PUSA V1.0 正式发布。该模型基于最新的 Wan2.1-T2V-14B,通过引入创新的 Vectorized Timestep Adaptation(VTA,向量化时间步自适应)技术,仅需原始模型 1/2500 的数据集、1/200 的训练成本和 1/5 的推理步骤,就实现了超越 Wan-I2V-14B 的性能。

PUSA Benchmark

什么是 PUSA V1.0?

PUSA V1.0 是一款面向视频生成领域的开源AI模型,采用了全新的向量化时间步自适应(VTA)技术。与传统视频扩散模型采用单一时间步不同,PUSA 能够在每一帧实现更细致的噪声控制,从而带来更高的生成质量和更丰富的多任务能力。

技术亮点与创新

  • 向量化时间步自适应(VTA):突破了传统标量时间步的限制,实现了帧级别的灵活控制。
  • 极致高效:仅用3860个视频样本、约500美元的训练成本,推理步骤也大幅减少。
  • 多任务支持:不仅能进行图像到视频(I2V)生成,还支持首尾帧生成、视频补全、视频扩展、文生视频(T2V)、视频过渡等多种任务。
  • 非破坏性微调:在保留原始模型全部能力的基础上,通过LoRA微调实现新功能,兼容性强。
  • 开源开放:完整开放模型权重、训练数据、推理与训练代码,便于社区和行业进一步研究和应用。

与 Wan-I2V 的对比

PUSA V1.0 以极低的训练资源和数据量,超越了 Wan-I2V-14B 的性能。Wan-I2V 仅支持图像到视频的单一任务,而 PUSA V1.0 则实现了多任务统一,且在 VBench-I2V 评测中得分更高(87.32% vs 86.86%)。

应用场景

  • AI 创意视频生成:用户可通过一张图片或一段文字,快速生成高质量短视频。
  • 视频内容补全与扩展:支持对已有视频进行首尾帧补全、内容延展等操作。
  • 多帧关键帧插值:可根据多张关键帧生成平滑过渡的视频片段。
  • 教育、娱乐、广告等领域:为内容创作者、教育者、广告行业等提供高效的视频生成工具。

直观体验

下方为 PUSA V0.5 版本的部分生成动图示例,V1.0 在此基础上进一步提升了多任务能力和生成质量:

Pusa V0.5 Demo

T2V Demo

PUSA V1.0 的发布,标志着视频生成技术的进一步平民化和高效化。其创新的VTA方法不仅提升了生成质量,也极大降低了开发和应用门槛。

相关链接