Black Forest Labs выпускает открытую версию FLUX.1 Krea [dev] с нативной поддержкой ComfyUI
31.07.2025
Google выпускает PaliGemma 2 Mix: открытая визуально-языковая модель с поддержкой множества задач
Google официально выпустила PaliGemma 2 mix — мощную многозадачную визуально-языковую модель. Эта модель — новейший представитель серии Gemma, способная обрабатывать множество визуальных задач в рамках одной модели, включая описание изображений, оптическое распознавание символов (OCR), детекцию объектов и сегментацию изображений.
Ключевые особенности
Поддержка множества задач
PaliGemma 2 mix поддерживает различные визуальные задачи:
- Описание изображений: Генерирует точные и подробные описания изображений
- Оптическое распознавание символов (OCR): Распознает текстовое содержимое на изображениях
- Детекция объектов: Обнаруживает и локализует объекты на изображениях
- Сегментация изображений: Выполняет точную семантическую сегментацию
- Понимание документов: Анализирует и понимает содержимое документных изображений
- Открытые визуально-языковые подсказки: Поддерживает гибкое визуально-языковое взаимодействие
Несколько масштабов модели
Для разных сценариев применения доступны три масштаба модели:
- Версия на 3B параметров: Для ограниченных по ресурсам задач
- Версия на 10B параметров: Баланс между производительностью и ресурсами
- Версия на 28B параметров: Максимальная производительность
Гибкая поддержка разрешения
Модель поддерживает два разрешения входных изображений:
- 224px: Для обычных задач обработки изображений
- 448px: Для задач, требующих высокой детализации
Дружественные функции для разработчиков
-
Совместимость с фреймворками
- Поддержка Hugging Face Transformers
- Поддержка Keras
- Поддержка PyTorch
- Поддержка JAX
- Поддержка Gemma.cpp
-
Простое переключение задач
- Переключение между задачами через разные подсказки
- Не требуется дополнительная загрузка или переключение моделей
Быстрый старт
Разработчики могут начать использовать PaliGemma 2 mix следующими способами:
-
Скачивание модели
- Скачать предобученную модель с Hugging Face или Kaggle
- Ознакомиться с официальной документацией
- Быстрый старт по примеру кода
-
Поддержка фреймворков разработки
- Hugging Face Transformers — самый популярный AI-фреймворк
- Keras — официальный рекомендованный фреймворк
- PyTorch — гибкий фреймворк глубокого обучения
- JAX — высокопроизводительный ML-фреймворк
- Gemma.cpp — схема развертывания на C++
-
Обучающие ресурсы
- Быстрый старт по инференс-руководству
- Попробовать обучение на пользовательском датасете
- Оценить функционал модели через онлайн-демо
- Использовать Google Colab для экспериментов
- Развернуть через Vertex Model Garden
Будущее развитие
Google отмечает, что выпуск PaliGemma 2 mix — только начало. Команда продолжит оптимизировать производительность модели и улучшать пользовательский опыт на основе обратной связи сообщества. Для пользователей, которым требуется дообучение в специфических областях, предоставлены официальная документация и примеры кода.