Skip to content
ComfyUI Wiki
帮助构建更好的 ComfyUI 知识库 成为赞助者
新闻腾讯混元图像3.0发布 - 全球最大开源文本生成图像模型

腾讯混元图像3.0发布 - 全球最大开源文本生成图像模型

腾讯于9月28日正式开源发布混元图像3.0(HunyuanImage-3.0),这是首个开源商用级原生多模态生图模型,也是目前参数量最大的开源图像生成模型,总参数规模高达80B。

主要特性

参数规模创新高

混元图像3.0拥有80B总参数量和13B激活参数,采用64个专家的MoE(混合专家)架构,是目前全球最大的开源文本生成图像模型。

世界知识推理能力

该模型具备基于世界知识推理的原生多模态能力,能够结合常识和专业知识生成更准确、更丰富的图像内容。模型可以:

  • 生成九宫格素描教程和算法流程可视化
  • 解释物理原理、历史事件、生物过程
  • 基于文学作品和诗歌创作视觉作品

千字级复杂语义理解

混元图像3.0支持1000+字符的复杂语义理解,这在同类开源模型中极为罕见。模型能够:

  • 处理复杂场景描述
  • 理解多层次细节要求
  • 支持中英文双语输入

精确文本渲染

模型在图像内文本生成方面表现优异,支持:

  • 海报设计中的标题文字
  • 信息图表中的注释文本
  • 品牌标识和标志
  • 多语言文本混合

技术架构

混元图像3.0采用了MoE+Transfusion的创新架构,统一了多模态理解和生成能力。与传统的DiT架构不同,该模型采用了统一的自回归框架,实现了文本和图像模态的深度融合。

训练数据

  • 50亿图像-文本对
  • 6T文本令牌
  • 渐进式训练策略
  • 强化学习后训练优化

使用要求

硬件配置

这个模型可能对普通消费级显卡来说是个极大考验,考虑到起 80B 参数量的巨大体量,即便是量化版本也可能很难在普通消费级显卡上顺利运行

  • GPU:≥3×80GB显存(推荐4×80GB)
  • 存储:170GB可用空间
  • 内存:64GB+系统内存
  • 系统:Linux + CUDA 12.8

开源计划

混元图像3.0提供完整的开源方案,包括:

  • 推理代码和模型权重
  • HunyuanImage-3.0基础版本
  • HunyuanImage-3.0-Instruct指令版本(支持推理能力)
  • 未来将支持图像到图像生成、多轮交互等功能

开源许可

混元图像3.0采用 Tencent Hunyuan Community License Agreement 开源许可证。该许可证允许:

  • 个人和企业可免费使用、复制、分发和修改模型
  • 支持商业用途和衍生作品开发
  • 允许通过API或其他方式提供托管服务

重要限制

  • 地域限制:该许可证不适用于欧盟、英国和韩国地区
  • 用户规模限制:如果您的产品或服务月活用户超过1亿,需要向腾讯申请额外许可
  • 使用限制:禁止将模型输出用于改进其他AI模型(混元系列除外)
  • 合规要求:必须遵守各国法律法规和可接受使用政策

相关链接