FramePack: 動画生成のための効率的な次フレーム予測モデル
2025/04/17
オープンソース画像生成の新展開:CogView4正式リリース
智譜AIチーム(THUDM)は本日、中国語プロンプトのネイティブ対応と画像内漢字生成が可能なオープンソース拡散Transformer(DiT)モデルCogView4を公開しました。DPG-Benchベンチマークで総合スコア85.13を記録し、画像生成能力の高さを実証しています。
コア機能ハイライト
バイリンガル生成機能
- 改良版GLM-4テキストエンコーダーを採用(日中バイリンガル対応)
- 100万組以上の日中バイリンガル画像テキストペアで学習
- 漢字生成精度テストでF1スコア61.68%を達成(同種モデルを上回る)
インテリジェントテキスト処理
- 動的テキスト長対応(最大1024トークン)
- 固定長方式比50%の計算量削減
- 学習効率最大30%向上
柔軟な解像度対応
- 512px~2048pxの自由な出力サイズ設定
- 混合解像度学習方式による多様なシーン対応
- SNS向けアスペクト比最適化(9:16, 1:1, 4:3など)
技術的優位性
革新的な「リレー拡散」フレームワークを採用:
- ベース生成段階:低解像度画像のアウトラインを迅速構築
- 超高解像度段階:flow-matching技術で詳細を修整
- 動的ノイズ計画:生成速度と品質のバランス最適化
ベンチマーク結果:
- DPG-Bench総合85.13点(SDXL 74.65、DALL-E 3 83.50を上回る)
- T2I-CompBench複雑シーン生成0.3869点
- 中国語文字生成精度F1値61.68%(同種モデル比114%向上)
ハードウェア最適化
デバイス別3段階最適化:
- 基本モード:RTX 3090で512x512生成可能
- メモリ最適化:CPUオフロードでVRAM使用量13GBまで低減
- 4bit量子化:テキストエンコーダー圧縮で推論速度向上
使用方法
一般ユーザーはHuggingFace Spacesプラットフォームでオンラインデモを体験可能。開発者はモデルダウンロードにより完全なコードベースを利用できます。主なAPI機能:
- 日中混合プロンプト入力対応
- カスタム出力サイズ設定
- バッチ生成機能
関連リソース
智譜チームは今後3ヶ月以内にControlNet制御モジュール、ComfyUI可視化ワークフロー対応、モデルファインチューニングツールキットを順次リリースし、一般ユーザーの利便性向上を図ると発表しました。