Boogu-Image-0.1-Edit: 开源统一图像编辑模型,采用 Apache 2.0 许可证
Boogu-Image-0.1-Edit 是 Boogu-Image 系列中采用 Apache 2.0 许可证的图像编辑模型,提供基于指令的图像编辑功能,采用统一的多模态理解与生成架构。
概述
Boogu-Image-0.1 是由 Boogu 项目 开发的一个具有竞争力的开源统一图像生成与编辑模型系列。该系列包含三个主要变体:Base(文生图)、Turbo(四步蒸馏快速生成)和 Edit(图生图编辑),均以 Apache 2.0 许可证 发布。
其中 Edit 变体专注于基于指令的图像编辑:用户提供参考图像以及描述所需编辑的自然语言指令,模型在保留原始图像结构与内容的同时生成编辑后的结果。
Boogu-Image-0.1 在 Boogu Arena(一种 LM Arena 风格偏好评估)中取得了有竞争力的结果,在 1000 多个多样化测试提示词中,相比闭源系统和领先的开源替代方案均表现良好。
关键特性
| 特性 | 描述 | |
--|
|
| 任务 | 基于指令的图生图编辑 |
| 架构 | 统一 MLLM 理解 + 扩散生成 |
| 许可证 | Apache 2.0(完全开源) |
| 库 | Diffusers(自定义 BooguImagePipeline) |
| 语言 | 针对英语和中文优化 |
| ComfyUI | ComfyUI 原生支持 |
模型架构
Boogu-Image-0.1 采用 统一的多模态理解与生成架构,集成了以下组件:
- 多模态大语言模型 (MLLM):用于理解用户指令和图像内容
- 扩散 Transformer:用于生成高质量图像
- VAE:用于 Latent 空间的编码/解码
这种统一的方法使模型能够在保持高质量图像的同时,精确遵循指令。Edit 变体特别利用了 MLLM 对空间关系、物体属性和编辑指令的理解能力,生成连贯的修改效果。
使用例
Boogu-Image-0.1-Edit 擅长多种图像编辑任务:
- 物体替换: 根据文本描述替换图像中的物体
- 背景更改: 修改背景同时保留前景主体
- 风格迁移: 将艺术风格应用到现有图像
- 局部编辑: 根据文本指令修改特定区域
- 双语支持: 处理英语和中文编辑指令
ComfyUI 集成
Boogu-Image-0.1-Edit 在 ComfyUI 中提供 原生支持。使用官方 Boogu Image Edit 工作流 快速开始。
请确保已将 ComfyUI 更新至最新版本(更新指南)。所需的模型权重可在 Hugging Face 上的 Comfy-Org/Boogu-Image 仓库中找到。
在线演示
您可以直接在浏览器中试用 Boogu-Image-0.1-Edit:
- 编辑演示: demo-edit.boogu.org
- 基础演示: demo-base.boogu.org
- 快速演示: demo-turbo.boogu.org
获取方式
- Hugging Face (Edit): Boogu/Boogu-Image-0.1-Edit
- Hugging Face (Base): Boogu/Boogu-Image-0.1-Base
- GitHub: boogu-project/Boogu-Image
- 项目主页: boogu.org
- 图库: boogu-gallery.netlify.app
总结
Boogu-Image-0.1-Edit 以宽松的 Apache 2.0 许可证向开源社区提供了具有竞争力的基于指令的图像编辑能力。凭借其统一的 MLLM 架构、强大的双语支持以及开箱即用的 ComfyUI 集成,该模型为开源图像编辑工具向前迈出了重要一步。