Open-Sora 2.0发布:低成本实现商业级视频生成能力
潞晨科技(ColossalAI团队)近日正式发布了Open-Sora 2.0,这是一款拥有110亿参数的开源视频生成模型,以其平衡成本与性能的特点引起业界广泛关注。该模型仅投入约20万美元(相当于224张GPU)的训练成本,却在多项评测中表现接近顶级商业模型。
视频演示






注:以上GIF为压缩格式,查看原始高质量视频请访问官方展示页面
性能表现
在权威的VBench评测中,Open-Sora 2.0与OpenAI Sora模型的性能差距从上一代的4.52%缩小到仅0.69%,几乎实现追平。用户偏好测试显示,该模型在视觉质量(69.5%胜率)、文本一致性(55.6%胜率)等指标上优于多款竞品,与腾讯HunyuanVideo(11B)和Step-Video(30B)等商业模型表现相当。

在VBench评测中的表现对比

用户偏好测试胜率对比

模型训练成本对比
技术创新
Open-Sora 2.0实现低成本高性能的背后,是一系列技术创新:
- 高效模型架构:采用3D全注意力机制与MMDiT架构(Masked Motion Diffusion Transformer),增强时空特征建模能力
- 低分辨率优先策略:先学习运动特征,再通过图生视频(T2I2V)提升画质,节省40倍计算资源
- 并行训练框架:借助ColossalAI并行框架,结合ZeroDP、Gradient Checkpointing等技术,GPU利用率达99%
- 高压缩自编码器:将768px视频生成时间从30分钟缩短至3分钟,速度提升10倍
开源生态价值
作为全栈开源项目,Open-Sora 2.0在GitHub公开了模型权重、训练代码(含数据预处理、分布式优化)和技术报告。模型支持多种应用场景:
- 影视预演:生成分镜脚本与特效原型
- 广告创意:快速制作多场景视频
- 教育科普:动态演示物理规律
- 游戏开发:自动生成NPC行为动画与场景过渡效果
该项目半年内论文引用量破百,吸引了包括英伟达在内的多家企业参与生态共建,为视频生成技术的普及提供了重要推动力。
实用功能与特性
Open-Sora 2.0具备丰富的实用功能:
多种分辨率与长宽比支持
支持256px和768px分辨率,能够处理16:9、9:16、1:1、2.39:1等不同长宽比的视频生成。
多种生成模式
- 文本生成视频:根据文字描述生成符合内容的视频
- 图像生成视频:将静态图像转化为具有动态效果的视频
- 动作强度控制:通过Motion Score参数(1-7分)调整视频中的运动幅度



动作分数从左到右分别为1分、4分、7分
高效推理
模型在高端GPU(如H100/H800)上能够高效运行:
- 256×256分辨率视频生成:单GPU仅需约60秒
- 768×768分辨率视频生成:8GPU并行可在约4.5分钟内完成
获取与使用
模型已在下列平台开放下载:
未来发展
潞晨科技团队表示,Open-Sora未来将继续提升:
- 支持4K分辨率、1分钟以上长视频生成
- 探索多模态能力(音频同步生成、跨模态编辑)
- 进一步降低训练与推理成本
这一突破性成果预计将显著降低视频内容创作门槛,推动AI视频工具在更广泛领域的应用。