Skip to content
ComfyUI Wiki
Помогите создать лучшую базу знаний ComfyUI Стать спонсором
НовостиGoogle выпускает PaliGemma 2 Mix: открытая визуально-языковая модель с поддержкой множества задач

Google выпускает PaliGemma 2 Mix: открытая визуально-языковая модель с поддержкой множества задач

Google официально выпустила PaliGemma 2 mix — мощную многозадачную визуально-языковую модель. Эта модель — новейший представитель серии Gemma, способная обрабатывать множество визуальных задач в рамках одной модели, включая описание изображений, оптическое распознавание символов (OCR), детекцию объектов и сегментацию изображений. PaliGemma 2 mix

Ключевые особенности

Поддержка множества задач

PaliGemma 2 mix поддерживает различные визуальные задачи:

  • Описание изображений: Генерирует точные и подробные описания изображений
  • Оптическое распознавание символов (OCR): Распознает текстовое содержимое на изображениях
  • Детекция объектов: Обнаруживает и локализует объекты на изображениях
  • Сегментация изображений: Выполняет точную семантическую сегментацию
  • Понимание документов: Анализирует и понимает содержимое документных изображений
  • Открытые визуально-языковые подсказки: Поддерживает гибкое визуально-языковое взаимодействие

Несколько масштабов модели

Для разных сценариев применения доступны три масштаба модели:

  • Версия на 3B параметров: Для ограниченных по ресурсам задач
  • Версия на 10B параметров: Баланс между производительностью и ресурсами
  • Версия на 28B параметров: Максимальная производительность

Гибкая поддержка разрешения

Модель поддерживает два разрешения входных изображений:

  • 224px: Для обычных задач обработки изображений
  • 448px: Для задач, требующих высокой детализации

Дружественные функции для разработчиков

  1. Совместимость с фреймворками

    • Поддержка Hugging Face Transformers
    • Поддержка Keras
    • Поддержка PyTorch
    • Поддержка JAX
    • Поддержка Gemma.cpp
  2. Простое переключение задач

    • Переключение между задачами через разные подсказки
    • Не требуется дополнительная загрузка или переключение моделей

Быстрый старт

Разработчики могут начать использовать PaliGemma 2 mix следующими способами:

  1. Скачивание модели

  2. Поддержка фреймворков разработки

    • Hugging Face Transformers — самый популярный AI-фреймворк
    • Keras — официальный рекомендованный фреймворк
    • PyTorch — гибкий фреймворк глубокого обучения
    • JAX — высокопроизводительный ML-фреймворк
    • Gemma.cpp — схема развертывания на C++
  3. Обучающие ресурсы

Будущее развитие

Google отмечает, что выпуск PaliGemma 2 mix — только начало. Команда продолжит оптимизировать производительность модели и улучшать пользовательский опыт на основе обратной связи сообщества. Для пользователей, которым требуется дообучение в специфических областях, предоставлены официальная документация и примеры кода.

Ссылка на оригинальную статью