Wan-S2V:音频驱动的视频生成模型发布
2025/08/26
Wan2.2-S2V:音频驱动的视频生成模型发布
Wan-S2V是一款AI视频生成模型,能够将静态图像和音频输入转换为视频内容。该模型单次生成的视频时长可达分钟级,为数字人直播、影视制作、教育等行业的视频创作提供新的解决方案。
该模型在影视应用场景中表现良好,能够生成面部表情、身体动作和镜头语言。它支持全身和半身角色生成,能够完成对话、歌唱、表演等各类内容创作需求。
技术特点
图像+音频=视频生成 Wan-S2V采用图像和音频结合的输入方式,通过一张静态图像和一段音频生成视频内容。该模型支持真人、卡通、动物、数字人等类型图片,并支持肖像、半身以及全身等不同画幅,能够根据音频让图片中的主体形象完成说话、唱歌和表演等动作。
音频驱动视频生成 该模型能够根据音频输入生成视频,支持对话和叙事场景的生成。通过音频输入,模型能够控制角色的口型、表情和动作,实现音视频的同步。
文本控制功能 Wan-S2V还支持文本控制,通过输入Prompt对视频画面进行控制,让视频主体的运动和背景发生变化。例如,上传一张人物弹钢琴的照片、一段歌曲和一段文字描述,模型能够生成钢琴演奏视频,保持人物形象与原图一致,面部表情和嘴部动作与音频同步,手指动作也能匹配音频节奏。
技术架构
Wan-S2V基于通义万相视频生成基础模型,结合文本引导的全局运动控制和音频驱动的局部运动控制,实现音频驱动视频生成。模型采用AdaIN和CrossAttention两种控制机制,提升音频控制效果。
为支持长视频生成,Wan-S2V使用层次化帧压缩技术,减少历史帧的Token数量,将motion frames(历史参考帧)的长度扩展到73帧,实现稳定的长视频生成。
在训练方面,团队构建了超过60万个片段的音视频数据集,采用混合并行训练进行全参数化训练。模型支持多分辨率训练和推理,能够适应不同分辨率的视频生成需求。
性能表现
测试数据显示,Wan2.2-S2V在多个评估指标上表现良好:
- FID(视频质量):15.66
- EFID(表情真实性):0.283
- CSIM(身份一致性):0.677
- SSIM(结构相似性):0.734
- PSNR(峰值信噪比):20.49
这些指标显示Wan-S2V在视频质量、表情真实性和身份一致性方面表现较好。
应用场景
Wan-S2V适用于多种专业内容创作场景:
- 影视制作:支持电影对话和叙事场景的生成
- 音乐视频:能够根据音频生成同步的音乐表演视频
- 教育内容:支持教学视频的自动化生成
- 娱乐内容:适用于各种娱乐和表演类视频创作
技术特点
Wan-S2V的主要技术特点包括:
- 音视频同步:通过音频处理管道实现音视频同步
- 表情动作生成:能够生成面部表情和身体动作
- 镜头控制:支持不同的摄像角度和镜头语言
- 多分辨率支持:适应不同分辨率的视频生成需求
开源与体验
开源地址:
体验地址:
Wan-S2V为AI视频生成领域提供了新的技术方案,为内容创作者提供了音频驱动视频生成的工具。该模型在影视制作、音乐视频制作等领域具有应用潜力。