腾讯混元图像3.0发布 - 全球最大开源文本生成图像模型
2025/09/27
腾讯混元图像3.0发布 - 全球最大开源文本生成图像模型
腾讯于9月28日正式开源发布混元图像3.0(HunyuanImage-3.0),这是首个开源商用级原生多模态生图模型,也是目前参数量最大的开源图像生成模型,总参数规模高达80B。
主要特性
参数规模创新高
混元图像3.0拥有80B总参数量和13B激活参数,采用64个专家的MoE(混合专家)架构,是目前全球最大的开源文本生成图像模型。
世界知识推理能力
该模型具备基于世界知识推理的原生多模态能力,能够结合常识和专业知识生成更准确、更丰富的图像内容。模型可以:
- 生成九宫格素描教程和算法流程可视化
- 解释物理原理、历史事件、生物过程
- 基于文学作品和诗歌创作视觉作品
千字级复杂语义理解
混元图像3.0支持1000+字符的复杂语义理解,这在同类开源模型中极为罕见。模型能够:
- 处理复杂场景描述
- 理解多层次细节要求
- 支持中英文双语输入
精确文本渲染
模型在图像内文本生成方面表现优异,支持:
- 海报设计中的标题文字
- 信息图表中的注释文本
- 品牌标识和标志
- 多语言文本混合
技术架构
混元图像3.0采用了MoE+Transfusion的创新架构,统一了多模态理解和生成能力。与传统的DiT架构不同,该模型采用了统一的自回归框架,实现了文本和图像模态的深度融合。
训练数据
- 50亿图像-文本对
- 6T文本令牌
- 渐进式训练策略
- 强化学习后训练优化
使用要求
硬件配置
这个模型可能对普通消费级显卡来说是个极大考验,考虑到起 80B 参数量的巨大体量,即便是量化版本也可能很难在普通消费级显卡上顺利运行
- GPU:≥3×80GB显存(推荐4×80GB)
- 存储:170GB可用空间
- 内存:64GB+系统内存
- 系统:Linux + CUDA 12.8
开源计划
混元图像3.0提供完整的开源方案,包括:
- 推理代码和模型权重
- HunyuanImage-3.0基础版本
- HunyuanImage-3.0-Instruct指令版本(支持推理能力)
- 未来将支持图像到图像生成、多轮交互等功能
开源许可
混元图像3.0采用 Tencent Hunyuan Community License Agreement 开源许可证。该许可证允许:
- 个人和企业可免费使用、复制、分发和修改模型
- 支持商业用途和衍生作品开发
- 允许通过API或其他方式提供托管服务
重要限制
- 地域限制:该许可证不适用于欧盟、英国和韩国地区
- 用户规模限制:如果您的产品或服务月活用户超过1亿,需要向腾讯申请额外许可
- 使用限制:禁止将模型输出用于改进其他AI模型(混元系列除外)
- 合规要求:必须遵守各国法律法规和可接受使用政策
相关链接
- 官方网站:https://hunyuan.tencent.com/image
- GitHub仓库:https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
- HuggingFace模型:https://huggingface.co/tencent/HunyuanImage-3.0
- 技术报告:HunyuanImage 3.0技术报告