Skip to content
より良い ComfyUI ナレッジベースの構築を支援する サポーターになる
ニュースOmniSVG:復旦大学とStepFunが統合ベクターグラフィックス生成モデルを発表

OmniSVG:復旦大学とStepFunが統合ベクターグラフィックス生成モデルを発表

復旦大学と階躍星辰(StepFun)チームは、統合スケーラブルベクターグラフィックス(SVG)生成モデル「OmniSVG」を共同で発表しました。このモデルは、テキスト、画像、キャラクターリファレンスなど様々な入力方法を通じて、シンプルなアイコンから複雑なアニメキャラクターまで、幅広い高品質ベクターグラフィックスを生成することができます。

従来の画像生成モデルと異なり、OmniSVGは無限に拡大縮小可能で完全に編集可能なSVGファイルを生成します。これにより、デザイナーは生成された結果を直接後処理や修正に利用することができ、プロフェッショナルなデザインワークフローにおけるAI生成グラフィックスの実用性を大幅に向上させています。

OmniSVGモデルの例

技術革新と動作原理

OmniSVGは事前学習済みの視覚言語モデル(VLM)Qwen-VLをベースに構築され、革新的なSVGトークン化手法によってベクターグラフィックス生成における核心的な課題に対処しています。このモデルはSVGコマンドと座標を離散トークンとしてパラメータ化し、構造的論理と幾何学的詳細を分離しつつ、複雑なSVG構造の表現能力を維持しています。

OmniSVGワークフロー

この設計には以下の主要な利点があります:

  • 効率的な生成プロセス:従来の方法と比較して訓練速度が3倍以上向上
  • 長いコンテキストのサポート:最大30,000トークンのシーケンスを処理し、豊富な詳細を持つ複雑なSVGの生成をサポート
  • マルチモーダル入力の互換性:テキスト記述、画像参照、キャラクター参照など様々な入力方法をサポート

生成プロセスのデモンストレーション:

生成プロセスデモ

複数の生成モード

OmniSVGは様々なアプリケーションシナリオのニーズに応えるために複数の生成モードをサポートしています:

テキストからSVGへの生成

ユーザーは「桜の木の下に座るカートゥーン風の猫」などの自然言語記述を通じて、意味的に適切なベクターグラフィックスを生成できます。

テキストからSVGへの例

画像からSVGへの変換

写真や手描きスケッチなどのビットマップを、元の画像の視覚的特徴を保持しながら編集可能性を獲得した、パスで構成されるベクターグラフィックスに自動変換します。

画像からSVGへの例

キャラクターリファレンスSVG生成

既存のキャラクター画像に基づいて、同じキャラクター特性を維持しながら異なるポーズやシナリオのベクターグラフィックスを生成します。これはアニメーションやゲームキャラクターデザインに特に価値があります。

キャラクターリファレンス生成の例

MMSVG-2Mデータセット

SVG生成技術の発展を促進するために、研究チームは初の大規模マルチモーダルSVGデータセットであるMMSVG-2Mをオープンソース化しました。このデータセットには200万のサンプルが含まれ、アイコン、イラスト、キャラクターデザインなどのカテゴリーをカバーしています。

MMSVG-2Mデータセットの可視化

MMSVG-2Mデータセットの主な特徴:

  • 豊富な多様性:シンプルなアイコンから複雑なキャラクターデザインまで、幅広い複雑さの範囲をカバー
  • マルチモーダル注釈:各SVGにはテキスト記述と対応するビットマップレンダリングが付属
  • 高品質サンプル:プロフェッショナルレベルのベクターグラフィックデザインサンプルを提供

現在、研究チームはHugging Faceプラットフォーム上でMMSVG-IconとMMSVG-Illustrationのサブデータセットをオープンソース化しており、MMSVG-Characterデータセットは近い将来にリリースされる予定です。

応用可能性と限界

応用シナリオ

  • デザイン自動化:ブランドアイコンやイラスト素材を迅速に生成し、手動描画時間を削減
  • 動的コンテンツ作成:アニメーションツールと組み合わせて、キャラクターアクションシーケンスをバッチ生成
  • クロスプラットフォーム適応:生成されたベクターグラフィックスは損失なく拡大縮小でき、モバイルデバイスから4Kディスプレイまでの様々な解像度に適しています

現在の限界

  • 生成速度:複雑なサンプルでは何万ものトークンを生成する必要があり、推論時間が長くなります(例:アニメキャラクターの生成に139秒)
  • スタイル一般化:トレーニングセットスタイルにない画像入力に対する変換効果は限定的で、マルチスタイルデータのさらなる統合が必要

オープンソース計画とリソース

研究チームはMMSVG-IconとMMSVG-Illustrationデータセットをオープンソース化し、近い将来にモデルコードと事前学習済み重みもオープンソース化する計画です。OmniSVGプロジェクトのオープンソース化は、SVG生成分野に新しい技術パラダイムを提供し、デザインツールのインテリジェントなアップグレードを促進します。

関連リンク

OmniSVGの発表は、ベクターグラフィックス生成技術における重要な進歩を示すものであり、グラフィックデザイン、UI/UX制作、視覚コンテンツ制作などの分野に新たな可能性をもたらすとともに、AI生成コンテンツのプロフェッショナルデザインワークフローへの統合に新たな方向性を提供するものです。