Skip to content
サポーターになる より良い ComfyUI ナレッジベースの構築を支援する
ニュースマイクロソフト、ART多層透明画像生成技術を発表

マイクロソフトART技術によるインテリジェントレイヤー画像生成

マイクロソフトリサーチは新たな**Anonymous Region Transformer(ART)**技術を発表しました。グローバルテキストプロンプトと匿名領域レイアウトを組み合わせることで、複数の透明レイヤーを含む合成画像を生成可能です。技術コードはGitHubでオープンソース化され、関連論文はarXivプラットフォームで公開されています。

技術の核心

認知心理学のゲシュタルト理論に基づく動的セマンティックマッピング機構を採用。従来の手動アノテーション方式とは異なり、自己組織化領域注意メカニズムにより512x512キャンバス上で最大64の論理レイヤーを自動生成します。

3段階処理フロー

  1. セマンティックデコンポジション:マルチモーダルLLMで複合概念を解析(例:「熱帯雨林生態系」→植生層・動物層・光影層)
  2. 動的割り当て:Transformerベースのレイアウトプランナーが自動配置
  3. 透明レンダリング:特許取得のアルファチャンネル予測アルゴリズムで0-100%透明度を制御

実用テスト結果

UI設計分野では「モダンログイン画面」のプロンプトで背景層・コントロール層・装飾要素層を自動分離。映像制作では「SF都市夜景」で12の編集可能レイヤーを生成します。

コアアルゴリズムライブラリ事前学習モデルを公開。ComfyUIプラグインまたはREST API経由で統合可能です。オープンソースコミュニティでは23のデザインツールが次期バージョンでのART統合を予定しています。

デモ動画

技術特性

セマンティック適応レイアウト

「都市夜景」などの複合記述から建築・照明・車両要素を自動分離。1プロンプト平均7.2基本レイヤー生成、最大58レイヤーまで拡張可能

レイヤー最適化アーキテクチャ

  1. テキスト分析によるヒートマップ生成(512x512解像度で0.3秒未満)
  2. 領域注意メカニズムによる並列処理(VRAM使用量42%削減)
  3. 透明度オートエンコーダーによる自然合成(エッジ精度96.7%)

業界比較データ

効率比較

適用分野従来手法ART手法効率改善
EC広告画像4.2時間2.5時間40.5%
ゲームコンセプト16時間5.6時間65%
VFXプレビジュアル9時間3.1時間65.6%

リソース比較

項目従来手法ART手法
VRAM使用量(8層)12.3GB8.1GB
生成遅延(50層)23.4秒9.8秒
ファイル容量(10層)380MB127MB

実用例

ゲーム開発

オープンワールドプロジェクトで:

  • シーン原型制作:3週間→6日
  • レイヤー競合問題83%減少
  • 素材修正応答時間0.5秒未満

教育現場

歴史教材作成で:

  • 12要素レイヤー同時制御
  • 素材生成精度89%
  • 教材準備時間70%短縮

エコシステム進展

  • Adobe PSプラグイン開発(β版DL5万回突破)
  • .artxオープンファイル形式(8大デザインソフト対応)
  • 開発者コミュニティ(登録者1200人以上)

関連リンク

モデルダウンロード | 技術ドキュメント | 研究論文 | GitHubリポジトリ