Follow me on X

•ComfyUI Wiki

ByteDance发布Sa2VA：首个图像视频统一理解模型

2025/10/17

Insert Anything: 开源图像无缝插入编辑框架

Insert Anything概览

Insert Anything是一个全新开源的图像编辑框架，由浙江大学、哈佛大学和南洋理工大学的研究团队（Wensong Song、Hong Jiang、Zongxing Yang、Ruijie Quan、Yi Yang）共同开发。该框架能够在用户指定的控制指导下，将参考图像中的对象无缝地集成到目标场景中。

这个统一的图像插入框架支持多种实际应用场景，包括艺术创作、真实人脸替换、电影场景合成、虚拟服装试穿、配饰定制和数字道具替换，充分展示了其在各种图像编辑任务中的多功能性和有效性。

主要功能与特点

统一的插入框架：不需要为不同任务训练单独的模型，一个模型支持多种插入场景
多种控制方式：支持基于掩码和文本的编辑指导
保留身份特征：能够准确捕捉身份特征和精细细节，同时允许在风格、颜色和纹理上进行多样化的局部调整
上下文编辑机制：将参考图像视为上下文信息，使用两种提示策略使插入元素与目标场景和谐融合
低显存版本支持：提供基于Nunchaku的10GB显存版本，方便普通用户使用

应用效果展示

表情包创作

表情包创作是Insert Anything的一个重要应用场景，以下是一些效果对比图：

表情包示例1 表情包效果1

表情包示例2 表情包效果2

表情包示例3 表情包效果3

商业广告设计

商业广告设计是Insert Anything的另一个重要应用场景，以下是一些效果对比图：

广告示例1 广告效果1

广告示例2 广告效果2

广告示例3 广告效果3

流行文化创作

流行文化创作展示了Insert Anything在创意内容生成方面的潜力：

流行文化示例1 流行文化效果1

流行文化示例2 流行文化效果2

流行文化示例3 流行文化效果3

流行文化示例4 流行文化效果4

技术亮点

Insert Anything方法概述

Insert Anything利用Diffusion Transformer (DiT)的多模态注意力机制，同时支持基于掩码和文本的编辑。根据不同类型的提示，该统一框架通过冻结的VAE编码器处理多幅输入图像（参考图像、源图像和遮罩的组合），以保留高频细节，并从图像和文本编码器中提取语义指导。这些嵌入被组合并输入到可学习的DiT变换器块中进行上下文学习，从而能够根据掩码或文本提示实现精确灵活的图像插入。

AnyInsertion数据集

AnyInsertion数据集示例

AnyInsertion数据集信息

为了训练这一统一框架，研究团队创建了AnyInsertion数据集，该数据集包含约12万对提示-图像对，涵盖多种插入任务，如人物、物体和服装插入。数据集分为基于掩码和基于文本的两种类别，每种类别又进一步细分为配饰、物体和人物子类别。

数据集的图像对来自互联网资源、人物视频和多视角图像。数据集涵盖了多种插入场景：

家具和室内装饰
日常必需品
服装和配饰
交通工具
人物

开源与使用

Insert Anything项目已在GitHub上开源，任何人都可以自由下载并使用：

GitHub仓库：song-wensong/insert-anything
数据集：WensongSong/AnyInsertion

项目提供了多种使用方式：

命令行推理脚本
Gradio界面
ComfyUI集成节点

硬件需求

Insert Anything提供两种版本：

标准版本：需要26GB或40GB显存
轻量版本：基于Nunchaku的优化版本，仅需10GB显存

未来计划

根据官方GitHub仓库的信息，团队计划：

发布训练代码
在HuggingFace上发布AnyInsertion文本提示数据集

相关链接

这一开源框架的发布，将为创意工作者、设计师和内容创作者提供一个强大的工具，帮助他们实现更加灵活和精确的图像编辑效果。