Skip to content
ComfyUI Wiki
Помогите создать лучшую базу знаний ComfyUI Стать спонсором
НовостиDeepSeek открывает исходный код Janus-Pro-7B: мультимодальная ИИ-модель

DeepSeek открывает исходный код Janus-Pro-7B: мультимодальная ИИ-модель

Китайская ИИ-компания DeepSeek объявила об открытии исходного кода своей мультимодальной модели следующего поколения Janus-Pro-7B в ранние часы сегодня. Модель превосходит DALL-E 3 от OpenAI и Stable Diffusion 3 в задачах генерации изображений и визуального ответа на вопросы, и вызвала сенсацию в ИИ-сообществе своей архитектурой “понимание-генерация двойной путь” и минималистичным решением развертывания. Посмотреть официальное объявление

Производительность: маленькая модель превосходит отраслевых гигантов

Janus

Несмотря на то, что у нее всего 7 миллиардов параметров (примерно 1/25 от GPT-4), Janus-Pro-7B превосходит своих конкурентов в ключевых тестах:

  • Качество генерации изображений из текста: Достигает 80% точности в тесте GenEval, превосходя DALL-E 3 (67%) и Stable Diffusion 3 (74%)
  • Понимание сложных инструкций: Набирает 84,19% точности в тесте DPG-Bench, точно генерируя сложные сцены, такие как “заснеженная гора с синим озером у подножия”
  • Мультимодальный ответ на вопросы: Точность визуального ответа на вопросы превосходит GPT-4V, с результатом теста MMBench 79,2, близким к профессиональным аналитическим моделям DeepSeek

Технический прорыв: двойной путь сотрудничества как “Янус”

Традиционные модели используют один и тот же визуальный энкодер для понимания и генерации изображений, что похоже на просьбу к повару одновременно проектировать меню и готовить. Janus-Pro-7B инновационно разделяет визуальную обработку на два независимых пути:

  1. Путь понимания: Использует визуальный энкодер SigLIP-L для быстрого извлечения основной информации из изображений (например, “Это оранжевый кот на диване”)
  2. Путь генерации: Разлагает изображения на массивы пикселей через VQ токенизатор, постепенно рисуя детали, как собирая блоки Lego (например, текстура меха, эффекты освещения) Этот дизайн “разделяй и властвуй” решает конфликт ролей в традиционных моделях и улучшает стабильность генерации, обучаясь на смеси 72 миллионов синтетических изображений и реальных данных.

Открытый исходный код и коммерческое использование

  • Бесплатно для коммерческого использования: Выпущена под лицензией MIT, позволяя неограниченное коммерческое использование
  • Минималистичное развертывание: Предлагает версии 1,5B (требует 16 ГБ VRAM) и 7B (требует 24 ГБ VRAM), запускаемые на стандартных GPU
  • Генерация одним кликом: Предоставлен официальный интерфейс Gradio; введите generate_image(prompt="заснеженная гора на закате", num_images=4) для пакетной генерации изображений

Официальные ресурсы:


Сценарии применения: от искусства до защиты конфиденциальности

  1. Творческие отрасли: Дизайнеры вводят текст для генерации прототипов плакатов; разработчики игр быстро создают ресурсы сцен
  2. Образовательные инструменты: Учителя используют модель для генерации динамических иллюстраций извержений вулканов для уроков географии
  3. Корпоративная конфиденциальность: Больницы и банки могут развертывать локально, избегая необходимости загружать записи пациентов или финансовые данные в облако
  4. Культурное распространение: Распознает глобальные достопримечательности (например, Западное озеро Ханчжоу) и генерирует изображения с культурными символами

Официальные ресурсы DeepSeek Janus**