阿里巴巴发布Wan-Animate模型 - 统一角色动画和替换技术
2025/09/19
阿里巴巴发布Wan-Animate模型 - 统一角色动画和替换技术
阿里巴巴通义实验室今日正式发布了Wan-Animate,这是一个基于Wan2.2的统一角色动画框架。该模型能够根据参考视频精确复制角色的表情和动作,生成高保真度的角色视频,同时支持将动画角色无缝集成到参考视频中替换原始角色。
演示视频
Demo
Demo
Demo
核心功能特性
Wan-Animate提供两个主要功能模式:
动画模式(Animation Mode):给定角色图像和参考视频,模型可以通过精确复制视频中角色的表情和动作来制作角色动画,生成高质量的角色视频。
替换模式(Replacement Mode):将动画角色集成到参考视频中替换原始角色,同时复制场景的光照和色调,实现与环境的无缝融合。
技术创新亮点
统一输入框架
Wan-Animate基于Wan-I2V模型构建,采用修改后的输入范式来区分参考条件和生成区域。这种设计将参考图像注入、时序帧引导和模式选择统一到一个通用的符号表示中,有效减少了训练过程中的分布偏移。
整体控制策略
模型将控制信号分解为身体动作和面部表情两个部分:
- 身体控制:采用基于骨架的表示方式,通过空间对齐注入到初始噪声潜在变量中
- 面部控制:直接使用参考视频中的原始面部图像作为驱动信号,编码为潜在向量以分离表情信息和身份属性
环境光照适配
为增强角色替换时的环境一致性,团队开发了辅助的重光照LoRA模块。该模块在保持角色外观一致性的同时,应用适当的环境光照和色调,实现更自然的场景融合效果。
性能表现
实验结果显示,Wan-Animate在多个评估维度上达到了目前的最高水平:
- 在SSIM、LPIPS和FVD等量化指标上超越了现有的开源角色动画框架
- 在与Runway Act-two和Bytedance DreamActor-M1等商业解决方案的人工评估对比中表现优异
- 支持任意输出分辨率,在替换模式下能够保持与参考视频相同的宽高比
应用场景
Wan-Animate在多个领域具有广泛的应用潜力:
- 影视制作:重现经典表演场景,实现跨风格角色转换
- 广告创意:角色替换和商业摄影编辑
- 短视频内容:舞蹈动作复制和动态镜头运动生成
- 数字化身:个性化角色动画创建
技术规格
当前版本支持以下输入规格:
- 视频文件:小于200MB,分辨率最小边大于200像素,最大边小于2048像素
- 视频时长:2-30秒,宽高比1:3到3:1
- 图片文件:小于5MB,支持jpg、png、jpeg、webp、bmp格式
相关链接
通过Wan-Animate的发布,阿里巴巴为角色动画领域带来了一个强大且易用的开源工具,有望推动相关技术的进一步发展和应用普及。