Skip to content
より良い ComfyUI ナレッジベースの構築を支援する サポーターになる
ニュース智譜AIチーム(THUDM)CogView4をオープンソース化 - 中国語ネイティブ対応のDiTテキスト画像生成モデル

オープンソース画像生成の新展開:CogView4正式リリース

CogView4生成サンプル

智譜AIチーム(THUDM)は本日、中国語プロンプトのネイティブ対応と画像内漢字生成が可能なオープンソース拡散Transformer(DiT)モデルCogView4を公開しました。DPG-Benchベンチマークで総合スコア85.13を記録し、画像生成能力の高さを実証しています。

コア機能ハイライト

バイリンガル生成機能

  • 改良版GLM-4テキストエンコーダーを採用(日中バイリンガル対応)
  • 100万組以上の日中バイリンガル画像テキストペアで学習
  • 漢字生成精度テストでF1スコア61.68%を達成(同種モデルを上回る)

インテリジェントテキスト処理

  • 動的テキスト長対応(最大1024トークン)
  • 固定長方式比50%の計算量削減
  • 学習効率最大30%向上

柔軟な解像度対応

  • 512px~2048pxの自由な出力サイズ設定
  • 混合解像度学習方式による多様なシーン対応
  • SNS向けアスペクト比最適化(9:16, 1:1, 4:3など)

技術的優位性

革新的な「リレー拡散」フレームワークを採用:

  1. ベース生成段階:低解像度画像のアウトラインを迅速構築
  2. 超高解像度段階:flow-matching技術で詳細を修整
  3. 動的ノイズ計画:生成速度と品質のバランス最適化

ベンチマーク結果:

  • DPG-Bench総合85.13点(SDXL 74.65、DALL-E 3 83.50を上回る)
  • T2I-CompBench複雑シーン生成0.3869点
  • 中国語文字生成精度F1値61.68%(同種モデル比114%向上)

ハードウェア最適化

デバイス別3段階最適化:

  • 基本モード:RTX 3090で512x512生成可能
  • メモリ最適化:CPUオフロードでVRAM使用量13GBまで低減
  • 4bit量子化:テキストエンコーダー圧縮で推論速度向上

使用方法

一般ユーザーはHuggingFace Spacesプラットフォームでオンラインデモを体験可能。開発者はモデルダウンロードにより完全なコードベースを利用できます。主なAPI機能:

  • 日中混合プロンプト入力対応
  • カスタム出力サイズ設定
  • バッチ生成機能

関連リソース

智譜チームは今後3ヶ月以内にControlNet制御モジュール、ComfyUI可視化ワークフロー対応、モデルファインチューニングツールキットを順次リリースし、一般ユーザーの利便性向上を図ると発表しました。