テンセントが混元画像3.0を発表 - 世界最大のオープンソーステキスト生成画像モデル

テンセントは9月28日に正式に混元画像3.0（HunyuanImage-3.0）をオープンソースとして公開しました。これは初めての商用レベルネイティブマルチモーダル画像生成モデルであり、現在最もパラメータ規模が大きなオープンソース画像生成モデルで、総パラメータ数は800億に達します。

主要特徴

混元画像3.0は総パラメータ数800億個、アクティブパラメータ数130億個を備え、64エキスパートによるMoE（Expert Mix、エキスパート混合）アーキテクチャを採用しており、現在世界最大のオープンソーステキスト生成画像モデルです。

このモデルは世界知識に基づく推論を行うネイティブマルチモーダル機能を備え、常識と専門知識を組み合わせてより正確で豊かな画像コンテンツを生成できます。モデルは以下のことができます：

混元画像3.0は1000文字以上の複雑な意味理解をサポートしており、同様のオープンソースモデルの中では極めて珍しい機能です。モデルは以下のことができます：

モデルは画像内のテキスト生成において優れた性能を発揮し、以下をサポートしています：

混元画像3.0は革新的なMoE+Transfusionアーキテクチャを採用し、マルチモーダル理解と生成能力を統合しています。従来のDiTアーキテクチャとは異なり、このモデルは統合された自己回帰フレームワークを使用し、テキストと画像モダリティの深層統合を実現しました。

このモデルは、800億パラメータという巨大なスケールを考えると、一般的なコンシューマーグラフィックスカードにとって相当な負担となる可能性があります。量子化バージョンでも、一般的なコンシューマーグラフィックスカードではスムーズに動作させるのが難しい可能性があります。

混元画像3.0は以下の完全なオープンソースソリューションを提供します：

混元画像3.0はTencent Hunyuan Community License Agreementオープンソースライセンスを採用しています。このライセンスでは以下を許可しています：

重要な制限事項