微软发布ART多层透明图像生成技术

微软研究院近日公开**Anonymous Region Transformer（ART）**技术方案，该方案通过结合全局文本提示与匿名区域布局，能够生成包含多个透明图层的复合图像。目前技术代码已在GitHub开源，相关论文同步发布于arXiv平台。

ART技术的核心创新在于其动态语义映射机制，该机制基于认知心理学中的格式塔理论，通过无标注区域划分实现视觉元素与文本描述的智能匹配。与需要人工标注每个区域语义的传统方法不同，ART采用自组织的区域注意力机制，在512x512画布上可自动生成最多64个逻辑图层。

在技术实现层面，系统通过三阶段处理流程：

实际测试显示，该方案在UI设计领域表现突出：当输入"现代风格登录界面"时，系统可自动分离背景层（渐变色）、控件层（输入框/按钮）、装饰元素层（图标/线条），各图层支持独立调整透明度与混合模式。影视后期制作中，输入"科幻城市夜景"可生成包含建筑主体层、灯光效果层、动态全息广告层等12个可编辑图层。

微软研究院同步开源了核心算法库和预训练模型，开发者可通过ComfyUI插件或REST API集成该技术。开源社区数据显示，已有23个设计工具宣布将在下个版本中集成ART图层系统，预计将显著提升数字内容创作效率。

在线编辑 Demo 演示视频

系统采用动态语义分析机制，输入"都市夜景"等复合描述时，可自动分离建筑、灯光、车辆等元素到不同图层。测试显示，单个提示平均生成7.2个基础图层，通过后期扩展最多支持58个专业图层。

--|

-| | 电商广告图 | 4.2小时 | 2.5小时 | 40.5% | | 游戏场景概念图 | 16小时 | 5.6小时 | 65% | | 影视特效预可视化 | 9小时 | 3.1小时 | 65.6% |

| | 显存占用(8层) | 12.3GB | 8.1GB | | 生成延迟(50层) | 23.4秒 | 9.8秒 | | 文件体积(10层) | 380MB | 127MB |

某开放世界游戏项目使用ART后：

在历史教学场景中：

目前已完成以下行业整合：