Follow me on X

•ComfyUI Wiki

ByteDance发布Sa2VA：首个图像视频统一理解模型

2025/10/17

StepFun开源Step-Video-T2V：300亿参数文生视频模型发布

StepFun 于2025年2月17日正式开源了其最新的文生视频模型 Step-Video-T2V。该模型拥有300亿参数，能够生成长达204帧的高质量视频。这是目前开源社区中参数量最大的文生视频模型之一。

模型特点

超大规模参数: 拥有300亿参数，支持生成最长204帧的视频
高压缩比: 采用深度压缩VAE技术，实现16x16空间压缩和8x时间压缩比
双语支持: 内置中英双语文本编码器，完美支持中文提示词
开源许可: 基于MIT许可证开源，支持商业用途
优化技术: 采用Direct Preference Optimization (DPO)技术提升视频生成质量

硬件要求

官方推荐使用配备80GB显存的GPU来运行模型，以获得最佳生成效果。具体硬件需求如下：

544px992px204帧视频生成：需要77.64GB显存
544px992px136帧视频生成：需要72.48GB显存

在线体验

目前，Step-Video-T2V已在跃问视频平台上线，提供公开体验。平台支持生成8秒钟的流畅视频，不过可能需要排队等待。

开源地址

模型下载：Hugging Face
技术报告：arXiv:2502.10248

StepFun团队表示，该模型的代码将被整合到Hugging Face官方的Diffusers库中，未来会持续优化模型性能和使用体验。对于想要本地部署的用户，团队也提供了详细的安装和使用文档。