崑崙万維がSkyReels-V2無限長映画生成モデルをリリース
2025/04/21
HiDream-I1は、2025年4月7日にHiDream-aiによって公式にオープンソース化されたテキストから画像へのモデルで、パラメータスケールは17Bです。
ライセンスタイプ MITライセンスの下でリリースされており、個人プロジェクト、科学研究、商業目的での使用をサポートしています。このモデルは、複数のベンチマークテストで良好なパフォーマンスを示しています。
この記事では、以下の内容をカバーします:
- HiDream-I1の簡単な紹介
- コミュニティで利用可能なHiDream-I1モデルの異なるバージョンとそのサポートに関する情報
- 異なるモデルバージョンのワークフロー
このモデルのフルバージョンは高いVRAM要件があるため、コミュニティモデルセクションからデバイスに適したバージョンを選択し、対応するワークフローについて学ぶことができます。対応するノードが正常に機能することを確認するために、この記事ComfyUIを最新バージョンにアップグレードするを参照してください。
HiDream-I1の紹介
モデルの特徴
ハイブリッドアーキテクチャデザイン 拡散モデル(DiT)と専門家の混合(MoE)アーキテクチャを組み合わせています:
- 本体は拡散トランスフォーマー(DiT)に基づいており、二重ストリームMMDiTモジュールを通じてマルチモーダル情報を処理し、単一ストリームDiTモジュールがグローバルな一貫性を最適化します。
- 動的ルーティングメカニズムは計算リソースを柔軟に割り当て、複雑なシーンを処理する能力を向上させ、色の復元、エッジ処理、その他の詳細において優れたパフォーマンスを発揮します。
マルチモーダルテキストエンコーダの統合 4つのテキストエンコーダを統合しています:
- OpenCLIP ViT-bigG、OpenAI CLIP ViT-L(視覚-意味の整合性)
- T5-XXL(長文解析)
- Llama-3.1-8B-Instruct(指示理解) この組み合わせは、色、量、空間関係に関連する複雑な意味解析において最先端のパフォーマンスを達成し、類似のオープンソースモデルに比べて中国語のプロンプトに対するサポートが大幅に向上しています。
オリジナルモデルリポジトリ
HiDream-aiは、異なるシナリオニーズに応じてHiDream-I1モデルの3つのバージョンを提供しています。以下はオリジナルモデルリポジトリへのリンクです:
- フルバージョン:🤗 HiDream-I1-Full(50推論ステップ)
- 蒸留開発バージョン:🤗 HiDream-I1-Dev(28推論ステップ)
- 蒸留高速バージョン:🤗 HiDream-I1-Fast(16推論ステップ)
コミュニティHiDream-I1モデルバージョン
現在、コミュニティにはHiDream-I1モデルの多くのバリアントバージョンがあります。これは、ComfyUI-Wikiによって整理された既存バージョンのコレクションです。ただし、テスト中に遭遇したいくつかの問題のため、対応するワークフローのみを提供します。
ComfyOrgからの再パッケージ版
ComfyOrgリポジトリは、フル、Dev、およびFastバージョンの再パッケージ版を提供しており、フルバージョンとfp8バージョンの両方が含まれています。フルバージョンは約20GBのVRAMを必要とし、fp8バージョンは約16GBのVRAMを必要とします。ネイティブの例を使用してワークフローを完成させます。
GGUFバージョンモデル
GGUFバージョンモデルはcity96によって提供されています:
リポジトリには、Q8からQ2までの複数のバージョンが含まれており、Q4は約12GBのVRAMを必要とし、Q2は約8GBのVRAMを必要とします。どのバージョンを選ぶべきか不明な場合は、最小のバージョンからテストを開始できます。
モデルをロードするには、ComfyUI-GGUFのUnet loader(GGUF)
ノードを使用する必要があり、ワークフローを完成させるために公式ノードを少し修正します。
NF4バージョンモデル
このバージョンは、メモリ使用量を削減するために4ビット量子化技術を使用しており、約16GBのVRAMで動作します。
- HiDream-I1-Full-nf4
- HiDream-I1-Dev-nf4
- HiDream-I1-Fast-nf4
- NF4バージョンモデルを利用するには、ComfyUI-HiDream-Samplerノードを使用します。このノードは元々lum3onによって提供されました。
ComfyUI-HiDream-Samplerは、最初の実行時にモデルをダウンロードし、非公式の画像から画像への機能を実装します。この文書内でも対応する例を完成させます。
共有モデルのインストール
以下のモデルファイルは、いくつかのワークフローで使用されるため、ダウンロードを開始し、モデルファイルの保存場所を参照できます。関連するワークフローで対応する拡散モデルのダウンロードリンクを提供します。
テキストエンコーダ:
- clip_l_hidream.safetensors
- clip_g_hidream.safetensors
- t5xxl_fp8_e4m3fn_scaled.safetensors これはT5XXLの軽量版で、すでに持っているかもしれません。
- llama_3.1_8b_instruct_fp8_scaled.safetensors
VAE
- ae.safetensors これはFluxのVAEモデルです。Fluxのワークフローを使用したことがある場合、このファイルはすでに持っているでしょう。
拡散モデル 関連するワークフローで対応するモデルファイルのダウンロードを案内します。
モデルファイルの保存場所
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 text_encoders/
│ │ ├─── clip_l_hidream.safetensors
│ │ ├─── clip_g_hidream.safetensors
│ │ ├─── t5xxl_fp8_e4m3fn_scaled.safetensors
│ │ └─── llama_3.1_8b_instruct_fp8_scaled.safetensors
│ └── 📂 vae/
│ │ └── ae.safetensors
│ └── 📂 diffusion_models/
│ └── ... # 対応するバージョンのワークフローにインストールするように案内されます。
ComfyUIネイティブHiDream-I1ワークフロー
ネイティブワークフローは、私がComfyのために書いた公式ドキュメント「ComfyUIネイティブHiDream-I1ワークフローの例」に詳述されています。しかし、公式ドキュメントは現在中国語と英語のみをサポートしているため、ComfyUI Wikiの多言語サポートを考慮して、このガイドでも対応する例を提供します。
公式ドキュメントでは、フル、開発、ファストバージョンの完全なワークフローを記述しました。これらの3つのワークフローは一般的に同じモデルとワークフローを使用しており、一部のパラメータとモデルのみが異なります。したがって、ここではワークフローの1つのバージョンのみを使用し、他の2つのバージョンの関連設定を補足して、この文書での過度の繰り返しを避けます。
1. ワークフローファイルのダウンロード
以下の画像をダウンロードし、ComfyUIにドラッグして対応するワークフローをロードしてください。このファイルには埋め込まれたモデルダウンロード情報が含まれており、ComfyUIは最上位のサブディレクトリに対応するモデルファイルが存在するかどうかを確認します。ただし、ComfyUI/models/text_encoders/hidream/
のような二次サブディレクトリにモデルファイルが存在するかどうかは確認できません。
すでに対応するモデルをダウンロードしている場合は、プロンプトを無視できます。以下のワークフローはhidream_i1_dev_fp8.safetensors
モデルを使用しています。他のバージョンを使用する必要がある場合は、手動モデルダウンロードセクションを参照して対応するモデルをダウンロードしてください。
JSON形式のワークフローをダウンロード
2. 手動モデルダウンロード
以下は、HiDream-I1の異なるバージョンのモデルファイルです。VRAM容量に基づいて適切なバージョンを選択し、ComfyUI/models/diffusion_models/
フォルダーに保存できます。
モデル名 | バージョン | 精度 | ファイルサイズ | VRAM要件 | ダウンロードリンク |
---|---|---|---|---|---|
hidream_i1_full_fp16.safetensors | フル | fp16 | 34.2 GB | 20GB | ダウンロードリンク |
hidream_i1_dev_bf16.safetensors | 開発 | bf16 | 34.2 GB | 20GB | ダウンロードリンク |
hidream_i1_fast_bf16.safetensors | ファスト | bf16 | 34.2 GB | 20GB | ダウンロードリンク |
hidream_i1_full_fp8.safetensors | フル | fp8 | 17.1 GB | 16GB | ダウンロードリンク |
hidream_i1_dev_fp8.safetensors | 開発 | fp8 | 17.1 GB | 16GB | ダウンロードリンク |
hidream_i1_fast_fp8.safetensors | ファスト | fp8 | 17.1 GB | 16GB | ダウンロードリンク |
参考までに:開発fp8バージョンは、24GBの4090で最初の生成に62秒、2回目の生成に20秒かかりました。
3. ワークフローを実行する手順に従う
ワークフローを実行する手順に従ってください
Load Diffusion Model
ノードがhidream_i1_dev_fp8.safetensors
またはダウンロードしたバージョンを使用していることを確認してください。QuadrupleCLIPLoader
内の4つの対応するテキストエンコーダが正しくロードされていることを確認してください:- clip_l_hidream.safetensors
- clip_g_hidream.safetensors
- t5xxl_fp8_e4m3fn_scaled.safetensors
- llama_3.1_8b_instruct_fp8_scaled.safetensors
Load VAE
ノードがae.safetensors
ファイルを使用していることを確認してください。- 開発バージョンの場合、
ModelSamplingSD3
のshift
パラメータをフルバージョンの場合は3.0
、開発バージョンの場合は6.0
、ファストバージョンの場合は3.0
に設定する必要があります。 Ksampler
ノードについては、ダウンロードしたモデルのバージョンに応じて設定する必要があります:steps
:フルバージョンの場合は50
、開発バージョンの場合は28
、ファストバージョンの場合は16
。cfg
:フルバージョンの場合は5.0
、開発バージョンの場合は1.0
、ファストバージョンの場合は1.0
に設定します(開発およびファストバージョンにはネガティブプロンプトはありません)。- (オプション)
sampler
をlcm
に設定します。 - (オプション)
scheduler
をnormal
に設定します。
Run
ボタンをクリックするか、ショートカットCtrl(cmd) + Enter
を使用して画像生成を実行します。
4. 異なるHiDream-I1バージョンモデルのパラメータ設定
対応するワークフローをComfyUIワークフローテンプレートで直接使用できます。ComfyOrgと協力して対応するモデルサポートをリリースする際に、すでにそれぞれのモデルに対応するパラメータを設定しています。
HiDream フル
- モデルファイル: hidream_i1_full_fp16.safetensors
ModelSamplingSD3
ノードのshift
パラメータ: 3.0Ksampler
ノード:- ステップ: 50
- サンプラー: uni_pc
- スケジューラー: simple
- cfg: 5.0
HiDream 開発
- モデルファイル: hidream_i1_dev_bf16.safetensors
ModelSamplingSD3
ノードのshift
パラメータ: 6.0Ksampler
ノード:- ステップ: 28
- サンプラー: lcm
- スケジューラー: normal
- cfg: 1.0 (ネガティブプロンプトなし)
HiDream ファスト
- モデルファイル: hidream_i1_fast_bf16.safetensors
ModelSamplingSD3
ノードのshift
パラメータ: 3.0Ksampler
ノード:- ステップ: 16
- サンプラー: lcm
- スケジューラー: normal
- cfg: 1.0 (ネガティブプロンプトなし)
HiDream-I1 GGUF バージョン ワークフロー
GGUF バージョンは、city96 によって提供された GGUF バージョンモデルを使用します。公式ノードを少し修正してワークフローを完成させます。
ComfyUI-GGUF プラグインをインストールするか、以前にインストールしたバージョンを更新し、Unet loader(GGUF)
ノードを使用してモデルをロードする必要があります。後で私のワークフローをロードし、ComfyUI-Manager の欠落ノードチェック機能を使用して対応するノードをインストールするか、手動インストールについては カスタムノードのインストール を参照してください。
1. 手動モデルダウンロード
ComfyUI ワークフローファイルのモデル情報埋め込みは、.sft
および .safetensors
ファイルのモデル情報の埋め込みのみをサポートしているため、GGUF バージョンモデルについては、最初に手動でモデルをダウンロードする必要があります。
対応する フル、開発、および ファスト リポジトリは、各バージョンのモデルファイルの複数のバージョンを Q8 から Q2 まで提供しており、VRAM の状況に基づいて適切なバージョンを選択し、ComfyUI/models/diffusion_models/
フォルダーにダウンロードできます。
参考までに: dev-Q5-1 バージョンは、24GB の 4090 で最初の生成に 162 秒、2 回目の生成に 58 秒かかりました。
他の必要なモデルについては、共有モデルのインストール セクションを参照してください。
2. ワークフローファイル
以下の画像をダウンロードし、ComfyUI にドラッグして対応するワークフローをロードしてください。
JSON 形式のワークフローをダウンロードします。
3. ワークフロー実行手順を順に完了させる
Load Diffusion Model
ノードを Unet loader(GGUF)
ノードに置き換えたため、他のすべては元のワークフローと完全に一致しています。
ワークフロー実行を完了させるための手順に従ってください:
Unet loader(GGUF)
ノードがダウンロードした GGUF バージョンモデルファイルを使用していることを確認してください。QuadrupleCLIPLoader
内の 4 つの対応するテキストエンコーダが正しくロードされていることを確認してください:- clip_l_hidream.safetensors
- clip_g_hidream.safetensors
- t5xxl_fp8_e4m3fn_scaled.safetensors
- llama_3.1_8b_instruct_fp8_scaled.safetensors
Load VAE
ノードがae.safetensors
ファイルを使用していることを確認してください。- 開発 バージョンの場合、
ModelSamplingSD3
のshift
パラメータをフルバージョンの場合は3.0
、開発バージョンの場合は6.0
、ファストバージョンの場合は3.0
に設定する必要があります。 Ksampler
ノードについては、ダウンロードしたモデルのバージョンに応じて設定する必要があります:steps
: フルバージョンの場合は50
、開発バージョンの場合は28
、ファストバージョンの場合は16
。cfg
: フルバージョンの場合は5.0
、開発バージョンの場合は1.0
、ファストバージョンの場合は1.0
に設定します(開発およびファストバージョンにはネガティブプロンプトはありません)。- (オプション)
sampler
をlcm
に設定します。 - (オプション)
scheduler
をnormal
に設定します。
Run
ボタンをクリックするか、ショートカットCtrl(cmd) + Enter
を使用して画像生成を実行します。
4. 異なる HiDream-I1 GGUF バージョンモデルのパラメータ設定
設定については元のワークフローセクションを参照してください。
HiDream-I1 NF4 バージョン ワークフロー
このバージョンでは、ComfyUI-HiDream-Sampler プラグインのインストールが必要です。これは元々 lum3on によって作成されました。
ノードは自動的にモデルをダウンロードするはずですが、インストール後に対応するダウンロードログがないことがわかりました。手動でモデルをインストールしたり、モデルの場所を選択したりすることができないため、少し制御が効かないと感じました。しかし、彼らのワークフローの例はすでに画像から画像への機能を実装しています。 インストール後、対応するディレクトリに sample-workflow フォルダーが見つかるか、sample-workflow を訪れて取得できます。 以下の画像にも対応するワークフローが含まれています。成功裏にテストした場合は、コメントで次の手順を教えてください。 :)