Follow me on X

•ComfyUI Wiki

ByteDance发布Sa2VA：首个图像视频统一理解模型

2025/10/17

腾讯开源混元视频生成大模型HunyuanVideo

腾讯正式开源了目前业界最大规模的视频生成大模型HunyuanVideo。该模型拥有130亿参数量，在视频生成质量、运动稳定性等多个方面都达到了领先水平，并且已经在GitHub和Hugging Face平台上完全开源。

模型主要特点

统一的图像和视频生成架构

采用”双流到单流”的混合模型设计
使用Transformer架构和全注意力机制
支持图像和视频的统一生成

先进的技术特性

采用多模态大语言模型(MLLM)作为文本编码器
使用3D VAE进行空间-时间压缩
内置提示词重写功能，支持Normal和Master两种模式
支持高分辨率视频生成，最高可达720p

独特优势

中国风格内容表现出色，包括传统古装和现代题材
支持通过提示词实现镜头切换，并保持ID一致性
在激烈运动场景中依然保持稳定的物理特性
专业评估显示在文本对齐度、运动质量和视觉质量方面均优于现有闭源模型

硬件要求

最低配置：45GB GPU显存(544x960分辨率)
推荐配置：60GB GPU显存(720x1280分辨率)
支持H800/H20等GPU

开源资源

目前模型已在以下平台开源：

GitHub仓库：Tencent/HunyuanVideo
Hugging Face模型：tencent/HunyuanVideo

在线体验

用户可以通过以下方式体验HunyuanVideo：

官方网站：混元视频生成平台
腾讯元宝APP的AI应用-AI视频板块

配套技术

除了核心的视频生成模型外，腾讯还发布了一系列配套的视频生成技术：

语音图片联合生成技术
- 支持面部说话和动作视频生成
- 实现全身运动的精确控制
视频内容理解和配音
- 智能识别视频画面内容
- 结合提示词生成匹配的配音
面部表情迁移
- 精确的唇形同步
- 自然的表情迁移效果

未来展望

HunyuanVideo的开源不仅标志着视频生成技术的重要突破，也为整个AI视频生成领域带来了新的可能。通过开放源代码和预训练权重，腾讯希望能够推动整个视频生成生态系统的发展，让更多开发者和研究者能够参与到技术创新中来。

随着模型的持续优化和社区的共同努力，我们有理由期待在不久的将来，AI视频生成技术将在创意表达、内容制作等领域发挥更大的作用。

相关资源

官方文档和示例：GitHub文档
在线演示平台：混元视频生成平台
技术交流社区：GitHub Issues