Skip to content
成为赞助者 帮助构建更好的 ComfyUI 知识库
新闻StepFun开源Step-Video-T2V:300亿参数文生视频模型发布

StepFun开源Step-Video-T2V:300亿参数文生视频模型发布

StepFun 于2025年2月17日正式开源了其最新的文生视频模型 Step-Video-T2V。该模型拥有300亿参数,能够生成长达204帧的高质量视频。这是目前开源社区中参数量最大的文生视频模型之一。

模型特点

  • 超大规模参数: 拥有300亿参数,支持生成最长204帧的视频
  • 高压缩比: 采用深度压缩VAE技术,实现16x16空间压缩和8x时间压缩比
  • 双语支持: 内置中英双语文本编码器,完美支持中文提示词
  • 开源许可: 基于MIT许可证开源,支持商业用途
  • 优化技术: 采用Direct Preference Optimization (DPO)技术提升视频生成质量

硬件要求

官方推荐使用配备80GB显存的GPU来运行模型,以获得最佳生成效果。具体硬件需求如下:

  • 544px992px204帧视频生成:需要77.64GB显存
  • 544px992px136帧视频生成:需要72.48GB显存

在线体验

目前,Step-Video-T2V已在跃问视频平台上线,提供公开体验。平台支持生成8秒钟的流畅视频,不过可能需要排队等待。

开源地址

StepFun团队表示,该模型的代码将被整合到Hugging Face官方的Diffusers库中,未来会持续优化模型性能和使用体验。对于想要本地部署的用户,团队也提供了详细的安装和使用文档。