Skip to content
ComfyUI Wiki
より良い ComfyUI ナレッジベースの構築を支援する サポーターになる
ニュースComfyUIでQwen-Imageがネイティブ対応

ComfyUIでQwen-Imageがネイティブ対応

Qwen-Image サンプル

Qwen-Imageは200億パラメータのMMDiT(マルチモーダル拡散トランスフォーマ)画像生成モデルで、複雑な文字レンダリングと細やかな編集に焦点を当てています。Apache-2.0ライセンスで公開され、最近ComfyUIでネイティブ対応が追加されました。テンプレートからそのまま試すことができます。

関連リンク

モデルのハイライト

プロジェクトページの情報によれば、本モデルはテキスト中心のシーンや編集の一貫性で優れ、生成と理解の双方で幅広い機能を備えています。

  • 複雑な文字レンダリング:中英など多言語で書体のディテールとレイアウト一貫性を維持。タイトル、スローガン、レイアウト情報を含む画像に適合
  • 精密な編集:スタイル転送、オブジェクトの挿入/削除、ディテール強化、画像内テキストの編集、人物ポーズ調整など
  • 汎用生成能力:フォトリアル、印象派、アニメ、美術的ミニマルまで、プロンプトに応じて自然に切り替え
  • 画像理解タスク:物体検出、セマンティックセグメンテーション、深度/エッジ(Canny)推定、新規視点合成、超解像
  • エコシステムと拡張性:多様なLoRA(例:MajicBeauty)への対応が進み、マルチGPU推論・キュー管理のローカルデプロイ例も提供

ComfyUIで利用可能なバージョン

  • Qwen-Image_bf16(約 40.9 GB)
  • Qwen-Image_fp8(約 20.4 GB)
  • 非公式の蒸留版(少ないステップで生成)

モデルのリソースはこちら: Hugging Face - Comfy-Org/Qwen-Image_ComfyUIModelScope - Comfy-Org/Qwen-Image_ComfyUI

パフォーマンス

ComfyUI Wikiが公式ドキュメント作成時に測定したデータ(RTX 4090D 24GB)です。

Qwen-Image_fp8

  • VRAM:86%
  • 生成時間:初回 94秒、2回目 71秒

Qwen-Image_bf16

  • VRAM:96%
  • 生成時間:初回 295秒、2回目 131秒

情報源と参考リンク