Wan2.2-S2V：音频驱动的视频生成模型发布

Demo

Wan-S2V是一款AI视频生成模型，能够将静态图像和音频输入转换为视频内容。该模型单次生成的视频时长可达分钟级，为数字人直播、影视制作、教育等行业的视频创作提供新的解决方案。

该模型在影视应用场景中表现良好，能够生成面部表情、身体动作和镜头语言。它支持全身和半身角色生成，能够完成对话、歌唱、表演等各类内容创作需求。

技术特点

图像+音频=视频生成 Wan-S2V采用图像和音频结合的输入方式，通过一张静态图像和一段音频生成视频内容。该模型支持真人、卡通、动物、数字人等类型图片，并支持肖像、半身以及全身等不同画幅，能够根据音频让图片中的主体形象完成说话、唱歌和表演等动作。

音频驱动视频生成 该模型能够根据音频输入生成视频，支持对话和叙事场景的生成。通过音频输入，模型能够控制角色的口型、表情和动作，实现音视频的同步。

文本控制功能 Wan-S2V还支持文本控制，通过输入Prompt对视频画面进行控制，让视频主体的运动和背景发生变化。例如，上传一张人物弹钢琴的照片、一段歌曲和一段文字描述，模型能够生成钢琴演奏视频，保持人物形象与原图一致，面部表情和嘴部动作与音频同步，手指动作也能匹配音频节奏。

Wan-S2V基于通义万相视频生成基础模型，结合文本引导的全局运动控制和音频驱动的局部运动控制，实现音频驱动视频生成。模型采用AdaIN和CrossAttention两种控制机制，提升音频控制效果。

为支持长视频生成，Wan-S2V使用层次化帧压缩技术，减少历史帧的Token数量，将motion frames（历史参考帧）的长度扩展到73帧，实现稳定的长视频生成。

在训练方面，团队构建了超过60万个片段的音视频数据集，采用混合并行训练进行全参数化训练。模型支持多分辨率训练和推理，能够适应不同分辨率的视频生成需求。

测试数据显示，Wan2.2-S2V在多个评估指标上表现良好：

这些指标显示Wan-S2V在视频质量、表情真实性和身份一致性方面表现较好。

Wan-S2V适用于多种专业内容创作场景：

Wan-S2V的主要技术特点包括：

开源地址：

体验地址：

Wan-S2V为AI视频生成领域提供了新的技术方案，为内容创作者提供了音频驱动视频生成的工具。该模型在影视制作、音乐视频制作等领域具有应用潜力。