Follow me on X

•ComfyUI Wiki

OpenMOSS 发布 MOVA - 开源音视频同步生成模型

2026/01/29

阿里巴巴通义万相 Wan2.1 视频生成模型正式开源

阿里巴巴于2025年2月25日宣布，其最新一代视频生成模型 Wan2.1 正式开源，这是一个重要的里程碑。该模型不仅在性能上超越现有开源模型，更重要的是其轻量级版本仅需 8GB 显存即可运行，大大降低了使用门槛。

核心亮点

Wan2.1 在多个方面都实现了显著的技术突破：

1. 超强性能与低资源需求

在 VBench 榜单中以 86.22% 的总分超越 Sora（84.28%）和 Luma（83.61%）等模型
T2V-1.3B 轻量级版本仅需 8.19GB 显存，可在消费级显卡上运行
支持生成 8K 画质视频，细节呈现达到影视级标准

2. 全面的功能支持

支持文本到视频（T2V）、图像到视频（I2V）、视频编辑等多种任务
首创中英双语文字特效生成，支持动态字幕和艺术字体
新增视频到音频（V2A）功能，实现音画同步生成

3. 创新的技术架构

采用线性噪声轨迹 Flow Matching 范式训练
Wan-VAE 编解码器可处理任意长度的 1080P 视频
3D 因果卷积模块增强物理模拟能力

版本选择与硬件要求

Wan2.1 提供两个版本以适应不同场景：

极速版（1.3B）
- 仅需 8.19GB 显存
- 适合个人开发者
- 5秒 480P 视频生成时间约4分钟
专业版（14B）
- 支持 720P 专业级渲染
- 适合影视工业应用
- 提供更丰富的特效接口

开源资源获取

目前所有模型已在 Hugging Face 和 ModelScope 平台开放下载：

T2V-14B：Hugging Face | ModelScope
I2V-14B-720P：Hugging Face | ModelScope
T2V-1.3B：Hugging Face | ModelScope

应用场景

Wan2.1 的应用范围广泛，主要包括：

个人创作

短视频内容生成
艺术创作辅助
图片动画化

专业制作

影视特效制作
广告创意设计
教育资源制作

工业应用

产品展示动画
建筑效果演示
工业流程可视化

未来展望

Wan2.1 的开源将为 AI 视频创作带来新的机遇。尤其是其低门槛的硬件要求，让更多个人开发者和小型团队能够参与到 AI 视频生成的实践中。这不仅会促进技术的普及，也将推动整个行业的创新发展。

相关链接