ComfyUI Wiki•

より良い ComfyUI ナレッジベースの構築を支援するサポーターになる

ComfyUIがサブグラフ機能を正式リリース

2025/08/07

オープンソース画像生成の新展開：CogView4正式リリース

CogView4生成サンプル

智譜AIチーム（THUDM）は本日、中国語プロンプトのネイティブ対応と画像内漢字生成が可能なオープンソース拡散Transformer（DiT）モデルCogView4を公開しました。DPG-Benchベンチマークで総合スコア85.13を記録し、画像生成能力の高さを実証しています。

コア機能ハイライト

バイリンガル生成機能

改良版GLM-4テキストエンコーダーを採用（日中バイリンガル対応）
100万組以上の日中バイリンガル画像テキストペアで学習
漢字生成精度テストでF1スコア61.68%を達成（同種モデルを上回る）

インテリジェントテキスト処理

動的テキスト長対応（最大1024トークン）
固定長方式比50%の計算量削減
学習効率最大30%向上

柔軟な解像度対応

512px～2048pxの自由な出力サイズ設定
混合解像度学習方式による多様なシーン対応
SNS向けアスペクト比最適化（9:16, 1:1, 4:3など）

技術的優位性

革新的な「リレー拡散」フレームワークを採用：

ベース生成段階：低解像度画像のアウトラインを迅速構築
超高解像度段階：flow-matching技術で詳細を修整
動的ノイズ計画：生成速度と品質のバランス最適化

ベンチマーク結果：

DPG-Bench総合85.13点（SDXL 74.65、DALL-E 3 83.50を上回る）
T2I-CompBench複雑シーン生成0.3869点
中国語文字生成精度F1値61.68%（同種モデル比114%向上）

ハードウェア最適化

デバイス別3段階最適化：

基本モード：RTX 3090で512x512生成可能
メモリ最適化：CPUオフロードでVRAM使用量13GBまで低減
4bit量子化：テキストエンコーダー圧縮で推論速度向上

使用方法

一般ユーザーはHuggingFace Spacesプラットフォームでオンラインデモを体験可能。開発者はモデルダウンロードにより完全なコードベースを利用できます。主なAPI機能：

日中混合プロンプト入力対応
カスタム出力サイズ設定
バッチ生成機能

関連リソース

智譜チームは今後3ヶ月以内にControlNet制御モジュール、ComfyUI可視化ワークフロー対応、モデルファインチューニングツールキットを順次リリースし、一般ユーザーの利便性向上を図ると発表しました。