阿里巴巴通义万相视频生成模型 WanX 2.1 即将开源
阿里巴巴于2025年2月21日宣布,其最新一代视频生成模型 WanX 2.1 将在第二季度全面开源,这将包括模型、训练数据集以及轻量级工具包。该消息的发布引起了 AI 社区的广泛关注。
技术创新与突破
WanX 2.1 在多个方面都实现了显著的技术突破:
多模态融合与高效生成
- 支持 1080p 高清视频、动态字幕和多语言配音的同步生成
- 采用 VAE(变分自编码器)和 DiT(去噪扩散Transformer)架构
- 生成效率提升至每分钟视频仅需15秒,较上一代提速4倍
- 精准模拟物理规律,包括人物肢体运动和流体效果
艺术风格与特效系统
- 内置超过100种艺术风格模板,包括油画和赛博朋克等风格
- 首创中英文文字特效生成能力,支持动态字幕和海报字体生成
- 通过超长上下文训练确保文本指令与视频生成的精准对应
性能评测
在权威的 VBench 评测榜单中,WanX 2.1 以 84.7% 的总分位居榜首,在以下维度表现突出:
- 动态程度表现
- 空间关系处理
- 多对象交互能力
应用场景
WanX 2.1 的应用范围广泛,主要包括:
商业创作
- 短视频内容批量生成
- 产品宣传动画定制
教育文化
- 沉浸式教学视频制作
- 历史影像修复与重建
影视广告
- 电影级运镜效果
- 专业特效字体生成
- 广告创意设计
使用与获取
目前,个人用户可以通过通义万相官网免费体验在线服务。企业用户则可以通过阿里云 Model Studio 平台进行 API 调用。
需要特别说明的是,虽然模型目前尚未开源,但阿里巴巴已承诺将在2025年第二季度开放模型源代码、训练数据集和相关工具包,这将为 AI 视频生成领域带来新的发展机遇。
未来展望
WanX 2.1 的开源将为 AI 视频创作生态带来重要推动。尤其在教育资源制作、文化遗产保护等公益领域,其应用前景广阔。不过用户也发现了一些待改进的地方,如中文文字生成偶尔会出现小错误,这些问题有望在后续版本中得到优化。