Skip to content
帮助构建更好的 ComfyUI 知识库 成为赞助者
新闻SkyReels-V2发布:支持无限长度视频生成的开源模型

SkyReels-V2发布:支持无限长度视频生成的开源模型

SkyReels Logo

SkyworkAI团队近日发布了全新的视频生成模型SkyReels-V2,这是一个突破性的开源项目,能够支持无限长度的电影级视频生成。该模型采用了创新的”扩散强制”(Diffusion Forcing)框架,同时支持文本到视频(T2V)和图像到视频(I2V)两种生成方式。

主要特点

SkyReels-V2在视频生成领域带来了多项创新:

  • 无限长度视频生成:通过扩散强制技术,模型可以生成理论上无限长的视频内容
  • 多模态输入支持:同时支持文生视频和图生视频功能
  • 高质量视觉表现:在人工评测中,画面表现接近闭源商业模型Kling-1.6和Runway Gen-4
  • 完全开源可商用:代码和模型权重均已开源,可用于商业项目
  • 视频字幕模型:附带发布了SkyCaptioner-V1,一个专门用于视频理解的字幕模型

模型系列

SkyReels-V2提供多种不同规模和分辨率的模型变体:

  • 扩散强制(DF)模型:专为无限长度视频生成设计,提供1.3B-540P和14B-720P等版本
  • 文本到视频(T2V)模型:专注于从文本提示生成高质量视频
  • 图像到视频(I2V)模型:能够从输入图像生成连贯的视频序列

技术亮点

SkyReels-V2采用了多项先进技术:

  1. 视频字幕器(SkyCaptioner-V1):基于Qwen2.5-VL-7B-Instruct模型微调,在视频内容理解上大幅超越现有模型
  2. 强化学习:通过强化学习优化运动质量,解决大型可变形运动和物理规律问题
  3. 扩散强制:创新的训练和采样策略,允许每个令牌分配独立的噪声水平
  4. 高质量监督微调:通过两阶段的监督微调提升视觉质量

性能表现

在人工评估中,SkyReels-V2在指令遵循、一致性和视觉质量方面取得了优异成绩:

  • 在文生视频任务中,SkyReels-V2达到了3.14的平均分,超过了包括Wan2.1-14B在内的其他开源模型
  • 在图生视频任务中,SkyReels-V2-I2V取得了3.29的平均分,接近商业闭源模型的表现水平

硬件需求

需要注意的是,SkyReels-V2的硬件要求较高:

  • 使用1.3B模型生成540P视频需要约14.7GB显存
  • 使用14B模型生成540P视频需要约43.4GB显存
  • 长视频生成或更高分辨率会需要更多资源

相关链接

SkyReels-V2的发布为AI视频生成领域带来了重要进展,尤其是在长视频生成方面的突破,将为创作者和开发者提供更多可能性。随着后续5B系列模型和摄像导演模型的计划发布,我们可以期待这一技术在未来带来更多创新应用。