Black Forest Labs выпускает открытую версию FLUX.1 Krea [dev] с нативной поддержкой ComfyUI
31.07.2025
DeepSeek открывает исходный код Janus-Pro-7B: мультимодальная ИИ-модель
Китайская ИИ-компания DeepSeek объявила об открытии исходного кода своей мультимодальной модели следующего поколения Janus-Pro-7B в ранние часы сегодня. Модель превосходит DALL-E 3 от OpenAI и Stable Diffusion 3 в задачах генерации изображений и визуального ответа на вопросы, и вызвала сенсацию в ИИ-сообществе своей архитектурой “понимание-генерация двойной путь” и минималистичным решением развертывания. Посмотреть официальное объявление
Производительность: маленькая модель превосходит отраслевых гигантов
Несмотря на то, что у нее всего 7 миллиардов параметров (примерно 1/25 от GPT-4), Janus-Pro-7B превосходит своих конкурентов в ключевых тестах:
- Качество генерации изображений из текста: Достигает 80% точности в тесте GenEval, превосходя DALL-E 3 (67%) и Stable Diffusion 3 (74%)
- Понимание сложных инструкций: Набирает 84,19% точности в тесте DPG-Bench, точно генерируя сложные сцены, такие как “заснеженная гора с синим озером у подножия”
- Мультимодальный ответ на вопросы: Точность визуального ответа на вопросы превосходит GPT-4V, с результатом теста MMBench 79,2, близким к профессиональным аналитическим моделям
Технический прорыв: двойной путь сотрудничества как “Янус”
Традиционные модели используют один и тот же визуальный энкодер для понимания и генерации изображений, что похоже на просьбу к повару одновременно проектировать меню и готовить. Janus-Pro-7B инновационно разделяет визуальную обработку на два независимых пути:
- Путь понимания: Использует визуальный энкодер SigLIP-L для быстрого извлечения основной информации из изображений (например, “Это оранжевый кот на диване”)
- Путь генерации: Разлагает изображения на массивы пикселей через VQ токенизатор, постепенно рисуя детали, как собирая блоки Lego (например, текстура меха, эффекты освещения) Этот дизайн “разделяй и властвуй” решает конфликт ролей в традиционных моделях и улучшает стабильность генерации, обучаясь на смеси 72 миллионов синтетических изображений и реальных данных.
Открытый исходный код и коммерческое использование
- Бесплатно для коммерческого использования: Выпущена под лицензией MIT, позволяя неограниченное коммерческое использование
- Минималистичное развертывание: Предлагает версии 1,5B (требует 16 ГБ VRAM) и 7B (требует 24 ГБ VRAM), запускаемые на стандартных GPU
- Генерация одним кликом: Предоставлен официальный интерфейс Gradio; введите
generate_image(prompt="заснеженная гора на закате", num_images=4)
для пакетной генерации изображений
Официальные ресурсы:
- Репозиторий GitHub: https://github.com/deepseek-ai/Janus
- Скачать модель: HuggingFace Janus-Pro-7B
Сценарии применения: от искусства до защиты конфиденциальности
- Творческие отрасли: Дизайнеры вводят текст для генерации прототипов плакатов; разработчики игр быстро создают ресурсы сцен
- Образовательные инструменты: Учителя используют модель для генерации динамических иллюстраций извержений вулканов для уроков географии
- Корпоративная конфиденциальность: Больницы и банки могут развертывать локально, избегая необходимости загружать записи пациентов или финансовые данные в облако
- Культурное распространение: Распознает глобальные достопримечательности (например, Западное озеро Ханчжоу) и генерирует изображения с культурными символами
Официальные ресурсы DeepSeek Janus**
- Репозиторий кода: GitHub Janus-Pro-7B
- Скачать модель: Страница модели HuggingFace