腾讯混元图像3.0发布 - 全球最大开源文本生成图像模型

腾讯于9月28日正式开源发布混元图像3.0（HunyuanImage-3.0），这是首个开源商用级原生多模态生图模型，也是目前参数量最大的开源图像生成模型，总参数规模高达80B。

主要特性

混元图像3.0拥有80B总参数量和13B激活参数，采用64个专家的MoE（混合专家）架构，是目前全球最大的开源文本生成图像模型。

该模型具备基于世界知识推理的原生多模态能力，能够结合常识和专业知识生成更准确、更丰富的图像内容。模型可以：

混元图像3.0支持1000+字符的复杂语义理解，这在同类开源模型中极为罕见。模型能够：

模型在图像内文本生成方面表现优异，支持：

混元图像3.0采用了MoE+Transfusion的创新架构，统一了多模态理解和生成能力。与传统的DiT架构不同，该模型采用了统一的自回归框架，实现了文本和图像模态的深度融合。

这个模型可能对普通消费级显卡来说是个极大考验，考虑到起 80B 参数量的巨大体量，即便是量化版本也可能很难在普通消费级显卡上顺利运行

混元图像3.0提供完整的开源方案，包括：

混元图像3.0采用 Tencent Hunyuan Community License Agreement 开源许可证。该许可证允许：

重要限制