ComfyUIがサブグラフ機能を正式リリース
2025/08/07
ComfyUIでQwen-Imageがネイティブ対応
Qwen-Imageは200億パラメータのMMDiT(マルチモーダル拡散トランスフォーマ)画像生成モデルで、複雑な文字レンダリングと細やかな編集に焦点を当てています。Apache-2.0ライセンスで公開され、最近ComfyUIでネイティブ対応が追加されました。テンプレートからそのまま試すことができます。
関連リンク
モデルのハイライト
プロジェクトページの情報によれば、本モデルはテキスト中心のシーンや編集の一貫性で優れ、生成と理解の双方で幅広い機能を備えています。
- 複雑な文字レンダリング:中英など多言語で書体のディテールとレイアウト一貫性を維持。タイトル、スローガン、レイアウト情報を含む画像に適合
- 精密な編集:スタイル転送、オブジェクトの挿入/削除、ディテール強化、画像内テキストの編集、人物ポーズ調整など
- 汎用生成能力:フォトリアル、印象派、アニメ、美術的ミニマルまで、プロンプトに応じて自然に切り替え
- 画像理解タスク:物体検出、セマンティックセグメンテーション、深度/エッジ(Canny)推定、新規視点合成、超解像
- エコシステムと拡張性:多様なLoRA(例:MajicBeauty)への対応が進み、マルチGPU推論・キュー管理のローカルデプロイ例も提供
ComfyUIで利用可能なバージョン
- Qwen-Image_bf16(約 40.9 GB)
- Qwen-Image_fp8(約 20.4 GB)
- 非公式の蒸留版(少ないステップで生成)
モデルのリソースはこちら: Hugging Face - Comfy-Org/Qwen-Image_ComfyUI | ModelScope - Comfy-Org/Qwen-Image_ComfyUI
パフォーマンス
ComfyUI Wikiが公式ドキュメント作成時に測定したデータ(RTX 4090D 24GB)です。
Qwen-Image_fp8
- VRAM:86%
- 生成時間:初回 94秒、2回目 71秒
Qwen-Image_bf16
- VRAM:96%
- 生成時間:初回 295秒、2回目 131秒
情報源と参考リンク
- プロジェクトページ(機能、ニュース、デプロイ):Qwen-Image GitHub
- テクニカルレポート(arXiv):Qwen-Image Technical Report
- モデルリソース(コミュニティミラー):Comfy-Org/Qwen-Image_ComfyUI | ModelScope - Comfy-Org/Qwen-Image_ComfyUI
- 参考(チュートリアル):ComfyUI ドキュメント · Qwen-Image ネイティブワークフロー