Skip to content
より良い ComfyUI ナレッジベースの構築を支援する サポーターになる
ニュースPixelFlow: ピクセル空間で直接動作する生成モデル

PixelFlow: ピクセル空間で直接動作する生成モデル

pixelflow

香港大学とAdobeの研究者たちが共同で開発したPixelFlowは、生のピクセル空間で直接動作する画像生成モデルのファミリーです。現在主流の潜在空間モデルとは異なり、PixelFlowは画像生成に対して全く新しいアプローチを採用しています。

革新的な特徴

PixelFlowの最も顕著な革新点は、ほとんどの主流モデルのように潜在空間ではなく、生のピクセル空間で直接動作することです。このアプローチにより、画像生成プロセスが以下の利点とともに簡素化されます:

  • 事前訓練された変分オートエンコーダ(VAE)への依存がない
  • モデル全体のエンドツーエンド訓練をサポート
  • 効率的なカスケードフロー・モデリングによりピクセル空間での計算コストを抑制

256x256のImageNetクラス条件付き画像生成ベンチマークでは、PixelFlowはFIDスコア1.98を達成し、テキストから画像への結果は画質、芸術性、意味的制御において優れていることを示しています。

オンラインデモ

PixelFlowチームは、ユーザーがモデルの画像生成能力を体験できるHuggingFaceオンラインデモを提供しています:https://huggingface.co/spaces/ShoufaChen/PixelFlow

モデルライブラリ

PixelFlowは現在、次の2つのモデルを提供しています:

  1. クラスから画像へのモデル:パラメータ数677M、FIDスコア1.98
  2. テキストから画像へのモデル:パラメータ数882M

これら2つのモデルの詳細情報は以下の通りです:

モデル名タスクパラメータ数FIDモデルの重み
PixelFlowクラスから画像へ677M1.98🤗
PixelFlowテキストから画像へ882MN/A🤗

両モデルはHuggingFaceプラットフォームで入手可能です。

将来の展望

研究チームは、この新しいパラダイムが次世代の視覚生成モデルに刺激を与え、新たな可能性を開くことを期待しています。PixelFlowのアプローチは、生成モデルの開発障壁を下げ、より効率的で軽量な画像生成方法を促進する可能性があります。

関連リンク