Skip to content
Ayuda a ComfyUI Wiki a eliminar anuncios Conviértete en Patrocinador
NoticiasDeepSeek hace público Janus-Pro-7B: Modelo de IA multimodal

DeepSeek hace público Janus-Pro-7B: Modelo de IA multimodal

La empresa china de IA DeepSeek anunció la liberación de su modelo multimodal de próxima generación, Janus-Pro-7B, en las primeras horas de hoy. El modelo supera a DALL-E 3 de OpenAI y a Stable Diffusion 3 en tareas como la generación de imágenes y la respuesta a preguntas visuales, y ha causado sensación en la comunidad de IA con su arquitectura de “doble vía de comprensión-generación” y su solución de despliegue minimalista. Ver anuncio oficial

Rendimiento: Modelo pequeño supera a gigantes de la industria

Janus

A pesar de tener solo 7 mil millones de parámetros (aproximadamente 1/25 de GPT-4), Janus-Pro-7B supera a sus competidores en pruebas clave:

  • Calidad de texto a imagen: Logra un 80% de precisión en la prueba GenEval, superando a DALL-E 3 (67%) y Stable Diffusion 3 (74%)
  • Comprensión de instrucciones complejas: Obtiene un 84.19% de precisión en la prueba DPG-Bench, generando con precisión escenas complejas como “una montaña nevada con un lago azul en su base”
  • Respuesta a preguntas multimodales: La precisión en la respuesta a preguntas visuales supera a GPT-4V, con una puntuación de 79.2 en la prueba MMBench, cercana a los modelos de análisis profesional DeepSeek

Avance técnico: Colaboración de doble vía como “Janus”

Los modelos tradicionales utilizan el mismo codificador visual para comprender y generar imágenes, como pedirle a un chef que diseñe un menú y cocine al mismo tiempo. Janus-Pro-7B divide de manera innovadora el procesamiento visual en dos vías independientes:

  1. Vía de comprensión: Utiliza el codificador visual SigLIP-L para extraer rápidamente la información central de las imágenes (por ejemplo, “Este es un gato naranja en un sofá”)
  2. Vía de generación: Descompone las imágenes en matrices de píxeles a través de un tokenizador VQ, dibujando gradualmente detalles como ensamblar bloques de Lego (por ejemplo, textura del pelaje, efectos de iluminación) Este diseño de “divide y vencerás” resuelve el conflicto de roles en los modelos tradicionales y mejora la estabilidad de la generación al entrenar con una mezcla de 72 millones de imágenes sintéticas y datos reales.

Código abierto y uso comercial

  • Gratuito para uso comercial: Publicado bajo la licencia MIT, permitiendo uso comercial ilimitado
  • Despliegue minimalista: Ofrece versiones de 1.5B (requiere 16GB de VRAM) y 7B (requiere 24GB de VRAM), ejecutables en GPUs estándar
  • Generación con un clic: Se proporciona una interfaz oficial de Gradio; ingrese generate_image(prompt="montaña nevada al atardecer", num_images=4) para generar imágenes en lote

Recursos oficiales:


Escenarios de aplicación: Desde el arte hasta la protección de la privacidad

  1. Industrias creativas: Los diseñadores ingresan texto para generar prototipos de carteles; los desarrolladores de juegos construyen rápidamente activos de escenas
  2. Herramientas educativas: Los profesores usan el modelo para generar ilustraciones dinámicas de erupciones volcánicas para lecciones de geografía
  3. Privacidad empresarial: Hospitales y bancos pueden implementar localmente, evitando la necesidad de subir registros de pacientes o datos financieros a la nube
  4. Difusión cultural: Reconoce hitos globales (por ejemplo, el Lago del Oeste en Hangzhou) y genera imágenes con símbolos culturales

Recursos oficiales de DeepSeek Janus**