Skip to content
ComfyUI Wiki
帮助构建更好的 ComfyUI 知识库 成为赞助者
新闻阿里云通义万相发布Wan2.2开源版本,ComfyUI原生支持已发布

阿里云通义万相发布Wan2.2开源版本,ComfyUI原生支持

ComfyUI Wan2.2 开源版本支持发布

阿里云通义万相团队正式发布了Wan2.2开源版本!这是一个全新的多模态视频生成模型,采用创新的MoE(Mixture of Experts)架构,为视频生成带来了显著的质量提升。该模型基于Apache 2.0协议完全开源,支持商业使用。

目前ComfyUI已经在第一时间实现了对Wan2.2的原生支持!现在你可以直接在ComfyUI中体验Wan2.2带来的视频生成技术。该模型由高噪专家模型和低噪专家模型组成,能够根据去噪时间步进行专家模型划分,从而生成更高质量的视频内容。

目前相关官方原生版本的教程,我已在 ComfyUI 的官方文档中完成,对于 WanVideoWrapper 的教程,我会在近期更新。

Wan2.2模型特点

  • MoE专家模型架构:高噪专家模型负责整体布局,低噪专家模型精细化细节
  • 影视级美学控制:专业镜头语言,支持光影、色彩、构图等多维度视觉控制
  • 大规模复杂运动:流畅还原各类复杂运动,强化运动可控性和自然度
  • 精准语义遵循:复杂场景理解,多对象生成,更好还原创意意图
  • 高效压缩技术:相比2.1版本数据大幅升级,5B版本高压缩比VAE,显存优化

Wan2.2技术突破

创新的MoE架构设计 Wan2.2模型首次将MoE架构成功应用到视频生成扩散模型中。该架构的27B版本由高噪专家模型和低噪专家模型组成,根据扩散模型去噪过程的阶段性差异进行专家模型划分。高噪声阶段专注于生成视频的整体布局,低噪声阶段则更关注细节的完善,这种分工协作显著提升了生成质量。

数据训练大幅升级 相比Wan2.1模型,Wan2.2在训练数据方面实现了显著扩充,图像数据增加65.6%,视频数据增加83.2%。数据扩容不仅提升了模型的泛化能力,还增强了创作多样性,使模型在复杂场景、美学表达和运动生成方面表现更加出色。

美学精调与强化学习 Wan2.2引入了专门的美学精调阶段,融合了电影工业标准的光影塑造、镜头构图法则和色彩心理学体系。通过强化学习(RL)技术进行进一步微调,有效对齐人类审美偏好,使生成的视频更符合专业影视标准。

Wan2.2模型版本

原始版本

ComfyUI重新打包版本

https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged

📚 可用版本

Wan2.2-TI2V-5B: FP16 Wan2.2-I2V-14B: FP16/FP8 Wan2.2-T2V-14B: FP16/FP8

ComfyUI对Wan2.2的支持

ComfyUI作为领先的AI图像生成工作流平台,已经实现了对Wan2.2的完整原生支持。用户可以在ComfyUI中直接使用Wan2.2的各种功能,包括:

  • 文本生成视频:通过简单的文本描述生成高质量视频
  • 图像转视频:将静态图片转换为动态视频内容
  • 混合模式:支持文本和图像结合的混合输入模式

ComfyUI的节点化工作流设计让Wan2.2的使用变得更加灵活和高效,用户可以轻松组合不同的参数和设置来获得最佳的生成效果。

通义万相Web平台升级

除了开源模型,通义万相Web平台也进行了全面升级:

创作功能焕新

  • 万相盒子:统一创作入口,支持图像、视频内容的统一创作
  • 聚合视图:新增聚合视图功能,支持相同输入、连续编辑任务的聚合展示

项目集功能

  • 项目式素材管理:以项目为单位进行视频创作管理
  • 时间线剪辑:提供时间线功能,支持素材剪辑与编排
  • 视频编辑与加工:支持局部编辑、重绘、延展等操作

相关链接