FramePack: 高效视频生成的下一帧预测模型
2025/04/17
FramePack: 使视频生成像图像生成一样高效
Lvmin Zhang和Maneesh Agrawala最近发布了名为FramePack的视频生成技术,该技术为下一帧预测模型提供了新的解决方案。FramePack通过创新的输入帧压缩方法,使视频生成的计算负载与视频长度无关,让用户能够在普通硬件上生成长时间的高质量视频。
核心技术特点
FramePack的主要优势在于它能够将输入上下文压缩到一个恒定长度,这使得生成工作负载不会随视频长度增加而增加。具体特点包括:
- 即使在只有6GB显存的笔记本电脑GPU上,也能使用13B参数模型处理大量帧
- 可以用与图像扩散训练相似的批量大小进行训练
- 在RTX 4090上生成速度可达每帧1.5-2.5秒
- 不需要时间步长蒸馏技术
解决视频生成的关键问题
传统视频生成面临两个主要问题:遗忘(模型难以记住早期内容)和漂移(视觉质量随时间累积误差而下降)。FramePack通过两种方式解决这些问题:
- 帧压缩机制:根据帧的重要性分配不同的上下文长度,最接近预测目标的帧获得更多资源
- 抗漂移采样:采用双向上下文而非严格的因果依赖,防止质量随时间衰减
实际展示
以下是FramePack从单一图像生成视频的效果展示:
示例1:舞蹈动作生成

输入图像
生成的视频
示例2:动态场景生成

输入图像
生成的视频
适合普通用户的技术
FramePack的设计使其具有极高的可用性:
- 硬件要求低:支持RTX 30XX、40XX、50XX系列的Nvidia GPU,最低仅需6GB显存
- 支持长视频生成:能够在小型GPU上生成长达60秒(30fps,1800帧)的视频
- 提供实时反馈:由于是逐帧生成,用户可以在整个视频完成前看到生成进度
相关链接
FramePack使视频生成变得像图像生成一样简单,为内容创作者提供了更加便捷高效的工具,即使在普通硬件上也能创建流畅、高质量的视频内容。