Skip to content
新闻腾讯开源混元视频生成大模型HunyuanVideo - 开创视频生成新纪元

腾讯开源混元视频生成大模型HunyuanVideo

腾讯正式开源了目前业界最大规模的视频生成大模型HunyuanVideo。该模型拥有130亿参数量,在视频生成质量、运动稳定性等多个方面都达到了领先水平,并且已经在GitHub和Hugging Face平台上完全开源。

模型主要特点

统一的图像和视频生成架构

  • 采用”双流到单流”的混合模型设计
  • 使用Transformer架构和全注意力机制
  • 支持图像和视频的统一生成

先进的技术特性

  • 采用多模态大语言模型(MLLM)作为文本编码器
  • 使用3D VAE进行空间-时间压缩
  • 内置提示词重写功能,支持Normal和Master两种模式
  • 支持高分辨率视频生成,最高可达720p

独特优势

  • 中国风格内容表现出色,包括传统古装和现代题材
  • 支持通过提示词实现镜头切换,并保持ID一致性
  • 在激烈运动场景中依然保持稳定的物理特性
  • 专业评估显示在文本对齐度、运动质量和视觉质量方面均优于现有闭源模型

硬件要求

  • 最低配置:45GB GPU显存(544x960分辨率)
  • 推荐配置:60GB GPU显存(720x1280分辨率)
  • 支持H800/H20等GPU

开源资源

目前模型已在以下平台开源:

在线体验

用户可以通过以下方式体验HunyuanVideo:

配套技术

除了核心的视频生成模型外,腾讯还发布了一系列配套的视频生成技术:

  1. 语音图片联合生成技术

    • 支持面部说话和动作视频生成
    • 实现全身运动的精确控制
  2. 视频内容理解和配音

    • 智能识别视频画面内容
    • 结合提示词生成匹配的配音
  3. 面部表情迁移

    • 精确的唇形同步
    • 自然的表情迁移效果

未来展望

HunyuanVideo的开源不仅标志着视频生成技术的重要突破,也为整个AI视频生成领域带来了新的可能。通过开放源代码和预训练权重,腾讯希望能够推动整个视频生成生态系统的发展,让更多开发者和研究者能够参与到技术创新中来。

随着模型的持续优化和社区的共同努力,我们有理由期待在不久的将来,AI视频生成技术将在创意表达、内容制作等领域发挥更大的作用。

相关资源