腾讯开源图像生视频模型 HunyuanVideo-I2V

最后更新：2025年3月6日news

腾讯混元团队推出支持单图生成5秒视频的开源模型，提供智能动作生成与特效定制功能

HunyuanVideo-I2V 是基于130亿参数的多模态大语言模型开发的图像转视频工具，用户可通过单张图片生成5秒高清视频。该模型提供完整的开发者套件，包含预训练权重、LoRA训练代码及多平台部署方案。

模型架构示意图

目前模型可以在 huggingface 下载

核心功能演示

基础视频生成示例

您的浏览器不支持视频标签

特效定制案例

| 特效类型 | 参考图像 | 生成效果 | |

|

-|

-| | 头发生长 | 参考图 | | | 拥抱动作 | | |

核心功能特点

智能视频生成

支持单张图片输入生成5秒高清视频（分辨率达2K）
提供三种控制模式：
- 文本描述：通过"主体+动作"指令控制（如"运动员跳水+慢镜头"）
- 音频驱动：支持10种语音风格的口型同步
- 预制模板：包含5套标准舞蹈动作

开发者支持

提供完整模型权重（130亿参数）和训练代码
支持LoRA微调技术，社区已创建900+定制模型
兼容消费级显卡部署（最低要求RTX 3090）

实际应用案例

电商领域
某服装品牌使用该模型生成商品360度展示视频，制作效率提升60%

影视制作
动画工作室通过API批量生成分镜预演，项目周期缩短40%

创意内容
开发者社区创作《长城汉服变装》《虚拟偶像舞蹈》等作品（查看案例集）

获取与支持

腾讯开源图像生视频模型 HunyuanVideo-I2V | ComfyUI Wiki