Skip to content
ComfyUI Wiki
帮助构建更好的 ComfyUI 知识库 成为赞助者
新闻Wan-S2V:音频驱动的视频生成模型发布

Wan2.2-S2V:音频驱动的视频生成模型发布

Demo

Wan-S2V是一款AI视频生成模型,能够将静态图像和音频输入转换为视频内容。该模型单次生成的视频时长可达分钟级,为数字人直播、影视制作、教育等行业的视频创作提供新的解决方案。

该模型在影视应用场景中表现良好,能够生成面部表情、身体动作和镜头语言。它支持全身和半身角色生成,能够完成对话、歌唱、表演等各类内容创作需求。

技术特点

图像+音频=视频生成 Wan-S2V采用图像和音频结合的输入方式,通过一张静态图像和一段音频生成视频内容。该模型支持真人、卡通、动物、数字人等类型图片,并支持肖像、半身以及全身等不同画幅,能够根据音频让图片中的主体形象完成说话、唱歌和表演等动作。

音频驱动视频生成 该模型能够根据音频输入生成视频,支持对话和叙事场景的生成。通过音频输入,模型能够控制角色的口型、表情和动作,实现音视频的同步。

文本控制功能 Wan-S2V还支持文本控制,通过输入Prompt对视频画面进行控制,让视频主体的运动和背景发生变化。例如,上传一张人物弹钢琴的照片、一段歌曲和一段文字描述,模型能够生成钢琴演奏视频,保持人物形象与原图一致,面部表情和嘴部动作与音频同步,手指动作也能匹配音频节奏。

技术架构

Wan-S2V基于通义万相视频生成基础模型,结合文本引导的全局运动控制和音频驱动的局部运动控制,实现音频驱动视频生成。模型采用AdaIN和CrossAttention两种控制机制,提升音频控制效果。

为支持长视频生成,Wan-S2V使用层次化帧压缩技术,减少历史帧的Token数量,将motion frames(历史参考帧)的长度扩展到73帧,实现稳定的长视频生成。

在训练方面,团队构建了超过60万个片段的音视频数据集,采用混合并行训练进行全参数化训练。模型支持多分辨率训练和推理,能够适应不同分辨率的视频生成需求。

性能表现

测试数据显示,Wan2.2-S2V在多个评估指标上表现良好:

  • FID(视频质量):15.66
  • EFID(表情真实性):0.283
  • CSIM(身份一致性):0.677
  • SSIM(结构相似性):0.734
  • PSNR(峰值信噪比):20.49

这些指标显示Wan-S2V在视频质量、表情真实性和身份一致性方面表现较好。

应用场景

Wan-S2V适用于多种专业内容创作场景:

  • 影视制作:支持电影对话和叙事场景的生成
  • 音乐视频:能够根据音频生成同步的音乐表演视频
  • 教育内容:支持教学视频的自动化生成
  • 娱乐内容:适用于各种娱乐和表演类视频创作

技术特点

Wan-S2V的主要技术特点包括:

  • 音视频同步:通过音频处理管道实现音视频同步
  • 表情动作生成:能够生成面部表情和身体动作
  • 镜头控制:支持不同的摄像角度和镜头语言
  • 多分辨率支持:适应不同分辨率的视频生成需求

开源与体验

开源地址:

体验地址:

Wan-S2V为AI视频生成领域提供了新的技术方案,为内容创作者提供了音频驱动视频生成的工具。该模型在影视制作、音乐视频制作等领域具有应用潜力。