Skip to content
帮助构建更好的 ComfyUI 知识库 成为赞助者
新闻Open-Sora 2.0发布:低成本实现商业级视频生成能力

Open-Sora 2.0发布:低成本实现商业级视频生成能力

潞晨科技(ColossalAI团队)近日正式发布了Open-Sora 2.0,这是一款拥有110亿参数的开源视频生成模型,以其平衡成本与性能的特点引起业界广泛关注。该模型仅投入约20万美元(相当于224张GPU)的训练成本,却在多项评测中表现接近顶级商业模型。

视频演示

注:以上GIF为压缩格式,查看原始高质量视频请访问官方展示页面

性能表现

在权威的VBench评测中,Open-Sora 2.0与OpenAI Sora模型的性能差距从上一代的4.52%缩小到仅0.69%,几乎实现追平。用户偏好测试显示,该模型在视觉质量(69.5%胜率)、文本一致性(55.6%胜率)等指标上优于多款竞品,与腾讯HunyuanVideo(11B)和Step-Video(30B)等商业模型表现相当。

在VBench评测中的表现对比

用户偏好测试胜率对比

模型训练成本对比

技术创新

Open-Sora 2.0实现低成本高性能的背后,是一系列技术创新:

  • 高效模型架构:采用3D全注意力机制与MMDiT架构(Masked Motion Diffusion Transformer),增强时空特征建模能力
  • 低分辨率优先策略:先学习运动特征,再通过图生视频(T2I2V)提升画质,节省40倍计算资源
  • 并行训练框架:借助ColossalAI并行框架,结合ZeroDP、Gradient Checkpointing等技术,GPU利用率达99%
  • 高压缩自编码器:将768px视频生成时间从30分钟缩短至3分钟,速度提升10倍

开源生态价值

作为全栈开源项目,Open-Sora 2.0在GitHub公开了模型权重、训练代码(含数据预处理、分布式优化)和技术报告。模型支持多种应用场景:

  • 影视预演:生成分镜脚本与特效原型
  • 广告创意:快速制作多场景视频
  • 教育科普:动态演示物理规律
  • 游戏开发:自动生成NPC行为动画与场景过渡效果

该项目半年内论文引用量破百,吸引了包括英伟达在内的多家企业参与生态共建,为视频生成技术的普及提供了重要推动力。

实用功能与特性

Open-Sora 2.0具备丰富的实用功能:

多种分辨率与长宽比支持

支持256px和768px分辨率,能够处理16:9、9:16、1:1、2.39:1等不同长宽比的视频生成。

多种生成模式

  • 文本生成视频:根据文字描述生成符合内容的视频
  • 图像生成视频:将静态图像转化为具有动态效果的视频
  • 动作强度控制:通过Motion Score参数(1-7分)调整视频中的运动幅度

动作分数从左到右分别为1分、4分、7分

高效推理

模型在高端GPU(如H100/H800)上能够高效运行:

  • 256×256分辨率视频生成:单GPU仅需约60秒
  • 768×768分辨率视频生成:8GPU并行可在约4.5分钟内完成

获取与使用

模型已在下列平台开放下载:

未来发展

潞晨科技团队表示,Open-Sora未来将继续提升:

  • 支持4K分辨率、1分钟以上长视频生成
  • 探索多模态能力(音频同步生成、跨模态编辑)
  • 进一步降低训练与推理成本

这一突破性成果预计将显著降低视频内容创作门槛,推动AI视频工具在更广泛领域的应用。

相关链接