テンセントが混元画像3.0を発表 - 世界最大のオープンソーステキスト生成画像モデル
テンセントは9月28日に正式に混元画像3.0(HunyuanImage-3.0)をオープンソースとして公開しました。これは初めての商用レベルネイティブマルチモーダル画像生成モデルであり、現在最もパラメータ規模が大きなオープンソース画像生成モデルで、総パラメータ数は800億に達します。
主要特徴
前例のないパラメータ規模
混元画像3.0は総パラメータ数800億個、アクティブパラメータ数130億個を備え、64エキスパートによるMoE(Expert Mix、エキスパート混合)アーキテクチャを採用しており、現在世界最大のオープンソーステキスト生成画像モデルです。
世界知識推論能力
このモデルは世界知識に基づく推論を行うネイティブマルチモーダル機能を備え、常識と専門知識を組み合わせてより正確で豊かな画像コンテンツを生成できます。モデルは以下のことができます:
- 九宮格スケッチチュートリアルやアルゴリズムフローの可視化を生成
- 物理原理、歴史的事象、生物プロセスを説明
- 文学作品や詩に基づいた視覚作品を制作
数千文字の複雑な意味理解
混元画像3.0は1000文字以上の複雑な意味理解をサポートしており、同様のオープンソースモデルの中では極めて珍しい機能です。モデルは以下のことができます:
- 複雑なシーン説明を処理
- 多層的なディテール要件を理解
- 中国語と英語の二カ国語入力をサポート
高精度なテキストレンダリング
モデルは画像内のテキスト生成において優れた性能を発揮し、以下をサポートしています:
- ポスターデザインでのタイトルテキスト
- インフォグラフィックでの注釈テキスト
- ブランドロゴや商標
- 多言語テキストの混在
技術アーキテクチャ
混元画像3.0は革新的なMoE+Transfusionアーキテクチャを採用し、マルチモーダル理解と生成能力を統合しています。従来のDiTアーキテクチャとは異なり、このモデルは統合された自己回帰フレームワークを使用し、テキストと画像モダリティの深層統合を実現しました。
学習データ
- 50億の画像-テキストペア
- 6Tテキストトークン
- 逐次的学習戦略
- 強化学習後学習最適化
使用要件
ハードウェア構成
このモデルは、800億パラメータという巨大なスケールを考えると、一般的なコンシューマーグラフィックスカードにとって相当な負担となる可能性があります。量子化バージョンでも、一般的なコンシューマーグラフィックスカードではスムーズに動作させるのが難しい可能性があります。
- GPU: ≥3×80GB VRAM(推奨4×80GB)
- ストレージ: 170GBの空き容量
- メモリ: 64GB以上のシステムRAM
- システム: Linux + CUDA 12.8
オープンソース計画
混元画像3.0は以下の完全なオープンソースソリューションを提供します:
- 推論コードとモデルウェイト
- HunyuanImage-3.0基本バージョン
- HunyuanImage-3.0-Instruct指令バージョン(推論機能をサポート)
- 将来は画像から画像生成、マルチターン対話などの機能をサポート予定
オープンソースライセンス
混元画像3.0はTencent Hunyuan Community License Agreementオープンソースライセンスを採用しています。このライセンスでは以下を許可しています:
- 個人および企業がモデルを無料で使用、複製、配布、修正すること
- 商用利用および派生物開発をサポート
- APIまたはその他の手段によるホスティングサービスの提供を許可
重要な制限事項
- 地理的制限: このライセンスはEU、英国、韓国地域には適用されません
- ユーザー規模制限: 製品またはサービスの月間アクティブユーザーが1億人を超える場合は、テンセントに追加ライセンスの申請が必要です
- 使用制限: 他社AIモデルの改善にモデル出力を使用することを禁止しています(混元シリーズを除く)
- 準拠要件: 各国の法律規制および利用規約を遵守する必要があります
関連リンク
- 公式サイト: https://hunyuan.tencent.com/image
- GitHubリポジトリ: https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
- HuggingFaceモデル: https://huggingface.co/tencent/HunyuanImage-3.0
- 技術報告書: HunyuanImage 3.0技術報告書