Step1X-Edit: オープンソースAI画像編集フレームワーク
2025/04/28
Step1X-Edit: オープンソースAI画像編集フレームワーク
Step1X-Editは、参照画像とユーザーの編集指示を処理するためにマルチモーダル大規模言語モデルを使用し、潜在埋め込みを抽出して拡散画像デコーダーと統合することで目標画像を生成する新しいオープンソース画像編集フレームワークです。このプロジェクトは、GPT-4oやGemini2 Flashなどのクローズドソースモデルに匹敵するパフォーマンスを提供することを目指しています。
主な特徴
- 自然言語による編集: 「美顔」「背景を変える」「ピクセルアートスタイルに変換」などの自然言語指示による画像編集をサポート
- オープンソースで商用利用可能: Apache 2.0ライセンスの下で公開され、商用利用が自由
- 柔軟なハードウェア要件: メモリ要件を削減するFP8量子化バージョンを提供
- コミュニティサポート: FP8量子化モデルを含む複数のコミュニティバージョンが既に存在
技術仕様
Step1X-Editは様々なハードウェア構成に対応するため、複数のバージョンを提供しています:
モデルバージョン | 最大GPU使用メモリ(512/786/1024解像度) | 28ステップ生成時間(秒) |
---|---|---|
標準版 | 42.5GB / 46.5GB / 49.8GB | 5秒 / 11秒 / 22秒 |
FP8量子化版 | 31GB / 31.5GB / 34GB | 6.8秒 / 13.5秒 / 25秒 |
標準版+CPUオフロード | 25.9GB / 27.3GB / 29.1GB | 49.6秒 / 54.1秒 / 63.2秒 |
FP8量子化版+CPUオフロード | 18GB / 18GB / 18GB | 35秒 / 40秒 / 51秒 |
公式には最高のパフォーマンスと効率を得るために80GBのメモリを持つGPUの使用が推奨されていますが、FP8量子化とCPUオフロード技術により、Step1X-Editはより少ないメモリを持つグラフィックカードでも実行可能です。
オンラインデモ
以下のリンクからStep1X-Editを直接体験できます:
Step1X-Edit
今後の計画
Step1X-Editチームはすでに以下を完了しています:
- 推論コードとモデル重みの公開
- オンラインデモ(Gradio)
- FP8量子化重み
計画中の機能には以下が含まれます:
- Diffusersとの統合
- ComfyUIとの統合
関連リンク
このオープンソースプロジェクトの公開により、より多くのユーザーがクローズドソースモデルに依存することなく高品質なAI画像編集機能を利用できるようになり、商用利用可能な特性により開発者にもより多くの可能性を提供します。