ComfyUIでQwen-Imageがネイティブ対応

Qwen-Imageは200億パラメータのMMDiT（マルチモーダル拡散トランスフォーマ）画像生成モデルで、複雑な文字レンダリングと細やかな編集に焦点を当てています。Apache-2.0ライセンスで公開され、最近ComfyUIでネイティブ対応が追加されました。テンプレートからそのまま試すことができます。

関連リンク

モデルのハイライト

プロジェクトページの情報によれば、本モデルはテキスト中心のシーンや編集の一貫性で優れ、生成と理解の双方で幅広い機能を備えています。

複雑な文字レンダリング：中英など多言語で書体のディテールとレイアウト一貫性を維持。タイトル、スローガン、レイアウト情報を含む画像に適合
精密な編集：スタイル転送、オブジェクトの挿入/削除、ディテール強化、画像内テキストの編集、人物ポーズ調整など
汎用生成能力：フォトリアル、印象派、アニメ、美術的ミニマルまで、プロンプトに応じて自然に切り替え
画像理解タスク：物体検出、セマンティックセグメンテーション、深度/エッジ（Canny）推定、新規視点合成、超解像
エコシステムと拡張性：多様なLoRA（例：MajicBeauty）への対応が進み、マルチGPU推論・キュー管理のローカルデプロイ例も提供

ComfyUIで利用可能なバージョン

Qwen-Image_bf16（約 40.9 GB）
Qwen-Image_fp8（約 20.4 GB）
非公式の蒸留版（少ないステップで生成）

モデルのリソースはこちら： Hugging Face - Comfy-Org/Qwen-Image_ComfyUI ｜ ModelScope - Comfy-Org/Qwen-Image_ComfyUI

パフォーマンス

ComfyUI Wikiが公式ドキュメント作成時に測定したデータ（RTX 4090D 24GB）です。

Qwen-Image_fp8

VRAM：86％
生成時間：初回 94秒、2回目 71秒

Qwen-Image_bf16

VRAM：96％
生成時間：初回 295秒、2回目 131秒

情報源と参考リンク

プロジェクトページ（機能、ニュース、デプロイ）：Qwen-Image GitHub
テクニカルレポート（arXiv）：Qwen-Image Technical Report
モデルリソース（コミュニティミラー）：Comfy-Org/Qwen-Image_ComfyUI ｜ ModelScope - Comfy-Org/Qwen-Image_ComfyUI
参考（チュートリアル）：ComfyUI ドキュメント · Qwen-Image ネイティブワークフロー

モデルのハイライト

ComfyUIで利用可能なバージョン

パフォーマンス

情報源と参考リンク

コメント