Skip to content
ComfyUI Wiki
Помогите создать лучшую базу знаний ComfyUI Стать спонсором
НовостиPixel-Reasoner: выпущена модель визуального рассуждения на пиксельном уровне с открытым исходным кодом

Pixel-Reasoner: выпущена модель визуального рассуждения на пиксельном уровне с открытым исходным кодом

Pixel-Reasoner - это визуальная языковая модель с открытым исходным кодом, основанная на Qwen2, фокусирующаяся на улучшении пиксельного визуального понимания и рассуждения. Модель может анализировать все изображение глобально и также поддерживает увеличение локальных областей для детального наблюдения, помогая захватывать тонкие детали в изображениях.

Основные особенности

  • Пиксельное рассуждение: Pixel-Reasoner может рассуждать напрямую в пиксельном пространстве изображений, не ограничиваясь традиционным текстовым рассуждением.
  • Сочетание глобального и локального понимания: Модель может схватывать общий контент изображения и также “увеличивать” для фокусировки на конкретных областях для более детального анализа.
  • Обучение, управляемое любопытством: Вводя механизм награды любопытства, модель поощряется активно исследовать и использовать пиксельные операции, улучшая разнообразие и точность визуального рассуждения.
  • Доступность с открытым исходным кодом: Модель, наборы данных и соответствующий код все с открытым исходным кодом, что легко для сообщества загрузить и попробовать.

Новая парадигма для пиксельного рассуждения

Pixel-Reasoner вводит новую концепцию “Пиксельного рассуждения”. В отличие от традиционных визуальных языковых моделей, которые полагаются только на текстовое рассуждение, Pixel-Reasoner может анализировать и оперировать напрямую на пиксельном уровне изображений.

Иллюстрация пиксельного рассуждения Как показано выше, модель может понимать все изображение и также увеличивать или выбирать области для фокусировки на деталях, улучшая свою способность понимать сложный визуальный контент.

Проблемы обучения и инновационные механизмы

Во время обучения команда обнаружила, что существующие визуальные языковые модели сталкиваются с “ловушкой обучения” в пиксельном рассуждении - они лучше в текстовом рассуждении и склонны терпеть неудачу в пиксельных операциях, не имея мотивации исследовать визуальные действия.

Иллюстрация ловушки обучения Изображение выше показывает узкое место, встреченное в раннем пиксельном рассуждении: из-за ограниченной начальной способности модель склонна избегать визуальных операций, что влияет на развитие навыков пиксельного рассуждения.

Для решения этого Pixel-Reasoner использует механизм обучения с подкреплением, управляемый любопытством, награждая модель за активные попытки пиксельных операций и постепенно улучшая свою способность рассуждения в визуальном пространстве.

Синтез данных и процесс обучения

Обучение Pixel-Reasoner разделено на два этапа:

  1. Инструктивное дообучение: Синтетические траектории рассуждения с визуальными операциями помогают модели ознакомиться с различными пиксельными действиями.
  2. Обучение с подкреплением, управляемое любопытством: Механизм награды поощряет модель активно исследовать и использовать визуальные операции во время рассуждения.

Синтез данных и процесс обучения Как показано выше, команда использует высокоразрешающие изображения и видео, сочетая автоматическую и ручную аннотацию, для генерации разнообразных данных рассуждения, помогая модели научиться анализировать и самокорректироваться в визуальном пространстве.

Типичные сценарии применения

Pixel-Reasoner особенно подходит для:

  • Задач, требующих идентификации маленьких объектов или деталей в изображениях
  • Понимания многоплощадной, многоуровневой информации в сложных изображениях или видео
  • Задач визуального рассуждения, сочетающих глобальную и локальную информацию

Сценарии применения

Pixel-Reasoner идеален для сценариев, требующих детального визуального понимания, таких как:

  • Анализ сложных изображений или видео контента
  • Распознавание маленьких объектов, тонких отношений или встроенного текста
  • Визуальные задачи, сочетающие глобальную и локальную информацию

Связанные ссылки

Эта статья ссылается на официальные материалы и статьи Pixel-Reasoner.