Boogu-Image-0.1-Edit: Edición unificada de imágenes de código abierto con licencia Apache 2.0
Boogu-Image-0.1-Edit es un modelo de edición de imágenes con licencia Apache 2.0 de la familia Boogu-Image, que ofrece edición de imágenes basada en instrucciones con una arquitectura unificada de comprensión y generación multimodal.
Visión general
Boogu-Image-0.1 es una familia de modelos unificados de generación y edición de imágenes de código abierto y competitivos, desarrollada por el proyecto Boogu. La familia incluye tres variantes principales: Base (texto a imagen), Turbo (generación rápida destilada en 4 pasos) y Edit (edición imagen a imagen), todas publicadas bajo la licencia Apache 2.0.
La variante Edit se centra específicamente en la edición de imágenes basada en instrucciones: los usuarios proporcionan una imagen de referencia junto con una instrucción en lenguaje natural que describe la edición deseada, y el modelo genera el resultado editado conservando la estructura y el contenido de la imagen original.
Boogu-Image-0.1 obtuvo resultados competitivos en el Boogu Arena (una evaluación de preferencias al estilo LM Arena), posicionándose favorablemente tanto frente a sistemas cerrados como a alternativas líderes de código abierto en más de 1000 prompts de prueba diversos.
Características principales
| Característica | Descripción | |
|
-|
| Tarea | Edición imagen a imagen basada en instrucciones |
| Arquitectura | Comprensión MLLM unificada + generación por difusión |
| Licencia | Apache 2.0 (completamente código abierto) |
| Biblioteca | Diffusers (BooguImagePipeline personalizado) |
| Idiomas | Optimizado para inglés y chino |
| ComfyUI | Soporte nativo en ComfyUI |
Arquitectura del modelo
Boogu-Image-0.1 emplea una arquitectura unificada de comprensión y generación multimodal que integra:
- Un modelo de lenguaje multimodal grande (MLLM) para comprender las instrucciones del usuario y el contenido de la imagen
- Un transformador de difusión para la generación de imágenes de alta calidad
- Un VAE para la codificación/descodificación en el espacio latente
Este enfoque unificado permite que el modelo logre un seguimiento preciso de las instrucciones manteniendo una alta calidad de imagen. La variante Edit aprovecha específicamente la comprensión del MLLM de las relaciones espaciales, los atributos de los objetos y las instrucciones de edición para producir modificaciones coherentes.
Capacidades
Boogu-Image-0.1-Edit sobresale en diversas tareas de edición de imágenes:
- Reemplazo de objetos: intercambiar objetos en una imagen según descripciones textuales
- Cambios de fondo: modificar fondos preservando los sujetos en primer plano
- Transferencia de estilo: aplicar estilos artísticos a imágenes existentes
- Ediciones locales: modificar regiones específicas guiadas por instrucciones de texto
- Soporte bilingüe: maneja instrucciones de edición tanto en inglés como en chino
Integración con ComfyUI
Boogu-Image-0.1-Edit cuenta con soporte nativo en ComfyUI. Comience rápidamente con el flujo de trabajo oficial de Boogu Image Edit.
Asegúrese de haber actualizado ComfyUI a la última versión (guía de actualización). Los pesos del modelo requeridos están disponibles en el repositorio Comfy-Org/Boogu-Image en Hugging Face.
Demos en línea
Puedes probar Boogu-Image-0.1-Edit directamente en tu navegador:
- Demo de Edit: demo-edit.boogu.org
- Demo de Base: demo-base.boogu.org
- Demo de Turbo: demo-turbo.boogu.org
Disponibilidad
- Hugging Face (Edit): Boogu/Boogu-Image-0.1-Edit
- Hugging Face (Base): Boogu/Boogu-Image-0.1-Base
- GitHub: boogu-project/Boogu-Image
- Página del proyecto: boogu.org
- Galería: boogu-gallery.netlify.app
Resumen
Boogu-Image-0.1-Edit lleva la edición de imágenes basada en instrucciones de nivel competitivo a la comunidad de código abierto bajo una licencia permisiva Apache 2.0. Con su arquitectura MLLM unificada, un sólido soporte bilingüe y una integración lista para usar con ComfyUI, representa un avance significativo para las herramientas de edición de imágenes de código abierto.