Skip to content
帮助构建更好的 ComfyUI 知识库 成为赞助者
新闻FramePack: 高效视频生成的下一帧预测模型

FramePack: 使视频生成像图像生成一样高效

Lvmin Zhang和Maneesh Agrawala最近发布了名为FramePack的视频生成技术,该技术为下一帧预测模型提供了新的解决方案。FramePack通过创新的输入帧压缩方法,使视频生成的计算负载与视频长度无关,让用户能够在普通硬件上生成长时间的高质量视频。

核心技术特点

FramePack的主要优势在于它能够将输入上下文压缩到一个恒定长度,这使得生成工作负载不会随视频长度增加而增加。具体特点包括:

  • 即使在只有6GB显存的笔记本电脑GPU上,也能使用13B参数模型处理大量帧
  • 可以用与图像扩散训练相似的批量大小进行训练
  • 在RTX 4090上生成速度可达每帧1.5-2.5秒
  • 不需要时间步长蒸馏技术

解决视频生成的关键问题

传统视频生成面临两个主要问题:遗忘(模型难以记住早期内容)和漂移(视觉质量随时间累积误差而下降)。FramePack通过两种方式解决这些问题:

  1. 帧压缩机制:根据帧的重要性分配不同的上下文长度,最接近预测目标的帧获得更多资源
  2. 抗漂移采样:采用双向上下文而非严格的因果依赖,防止质量随时间衰减

实际展示

以下是FramePack从单一图像生成视频的效果展示:

示例1:舞蹈动作生成

输入图像

输入图像

生成的视频

示例2:动态场景生成

输入图像

输入图像

生成的视频

适合普通用户的技术

FramePack的设计使其具有极高的可用性:

  • 硬件要求低:支持RTX 30XX、40XX、50XX系列的Nvidia GPU,最低仅需6GB显存
  • 支持长视频生成:能够在小型GPU上生成长达60秒(30fps,1800帧)的视频
  • 提供实时反馈:由于是逐帧生成,用户可以在整个视频完成前看到生成进度

相关链接

FramePack使视频生成变得像图像生成一样简单,为内容创作者提供了更加便捷高效的工具,即使在普通硬件上也能创建流畅、高质量的视频内容。