阿里巴巴通义万相 Wan2.1 视频生成模型正式开源
阿里巴巴于2025年2月25日宣布,其最新一代视频生成模型 Wan2.1 正式开源,这是一个重要的里程碑。该模型不仅在性能上超越现有开源模型,更重要的是其轻量级版本仅需 8GB 显存即可运行,大大降低了使用门槛。
核心亮点
Wan2.1 在多个方面都实现了显著的技术突破:
1. 超强性能与低资源需求
- 在 VBench 榜单中以 86.22% 的总分超越 Sora(84.28%)和 Luma(83.61%)等模型
- T2V-1.3B 轻量级版本仅需 8.19GB 显存,可在消费级显卡上运行
- 支持生成 8K 画质视频,细节呈现达到影视级标准
2. 全面的功能支持
- 支持文本到视频(T2V)、图像到视频(I2V)、视频编辑等多种任务
- 首创中英双语文字特效生成,支持动态字幕和艺术字体
- 新增视频到音频(V2A)功能,实现音画同步生成
3. 创新的技术架构
- 采用线性噪声轨迹 Flow Matching 范式训练
- Wan-VAE 编解码器可处理任意长度的 1080P 视频
- 3D 因果卷积模块增强物理模拟能力
版本选择与硬件要求
Wan2.1 提供两个版本以适应不同场景:
-
极速版(1.3B)
- 仅需 8.19GB 显存
- 适合个人开发者
- 5秒 480P 视频生成时间约4分钟
-
专业版(14B)
- 支持 720P 专业级渲染
- 适合影视工业应用
- 提供更丰富的特效接口
开源资源获取
目前所有模型已在 Hugging Face 和 ModelScope 平台开放下载:
- T2V-14B:Hugging Face | ModelScope
- I2V-14B-720P:Hugging Face | ModelScope
- T2V-1.3B:Hugging Face | ModelScope
应用场景
Wan2.1 的应用范围广泛,主要包括:
个人创作
- 短视频内容生成
- 艺术创作辅助
- 图片动画化
专业制作
- 影视特效制作
- 广告创意设计
- 教育资源制作
工业应用
- 产品展示动画
- 建筑效果演示
- 工业流程可视化
未来展望
Wan2.1 的开源将为 AI 视频创作带来新的机遇。尤其是其低门槛的硬件要求,让更多个人开发者和小型团队能够参与到 AI 视频生成的实践中。这不仅会促进技术的普及,也将推动整个行业的创新发展。