Skip to content
ComfyUI Wiki
Помогите создать лучшую базу знаний ComfyUI Стать спонсором
НовостиBlack Forest Labs выпускает FLUX.1 Kontext: набор моделей для контекстно-осведомленного редактирования изображений

Black Forest Labs выпускает FLUX.1 Kontext: набор моделей для контекстно-осведомленного редактирования изображений

29 мая 2024 года Black Forest Labs официально выпустил FLUX.1 Kontext, набор генеративных моделей flow matching, специально разработанных для генерации и редактирования изображений. В отличие от существующих моделей текст-в-изображения, серия FLUX.1 Kontext может выполнять контекстно-осведомленную генерацию изображений, позволяя пользователям использовать как текст, так и изображения в качестве входов, бесшовно извлекая и модифицируя визуальные концепции для производства новых, согласованных рендерингов.

Три версии модели FLUX.1 Kontext

FLUX.1 Kontext [pro] - Быстрое итеративное редактирование

Как пионерская модель для быстрого итеративного редактирования изображений, FLUX.1 Kontext [pro] интегрирует локальное редактирование, генеративную модификацию контекста и классические функции генерации текст-в-изображения в одной модели, сохраняя при этом фирменный высококачественный вывод FLUX.1. Модель может обрабатывать текст и референсные изображения как входы, бесшовно достигая целевых локальных правок в конкретных областях изображения и сложных трансформаций целых сцен.

FLUX.1 Kontext [max] - Максимальная производительность

Как экспериментальная модель, FLUX.1 Kontext [max] показывает значительные улучшения в следовании промптам и генерации текста, превосходя в согласованности редактирования при сохранении без компромиссов в скорости.

FLUX.1 Kontext [dev] - Версия разработки с открытым исходным кодом

FLUX.1 Kontext [dev] - это легковесный 12B диффузионный трансформер, подходящий для кастомизации, совместимый с предыдущим кодом вывода FLUX.1 [dev]. Эта версия в настоящее время в приватном бета-тестировании, и исследователи могут подать заявку на доступ через [email protected].

Основные технические особенности

Основные технические возможности FLUX.1 Kontext включают:

Сохранение согласованности персонажей: Поддержание согласованности уникальных элементов (таких как референсные персонажи или объекты) в изображениях через множественные сцены и окружения, функция, которую трудно достичь с традиционными инструментами редактирования изображений.

Локализованное редактирование: Способность делать целевые модификации конкретных элементов в изображениях без влияния на другие части, достигая точных локальных настроек.

Стилевая ссылка: Генерация новых сцен при сохранении уникального стиля референсных изображений, управляемая текстовыми промптами.

Интерактивная скорость: Крайне низкая задержка как для генерации изображений, так и для редактирования, поддерживая операции в реальном времени.

Способность итеративного редактирования: Пользователи могут продолжать добавлять инструкции на основе предыдущих правок, постепенно улучшая свое творение при сохранении качества изображения и согласованности персонажей.

Результаты бенчмарка производительности

Для валидации производительности модели Black Forest Labs провел обширные оценки производительности и составил KontextBench, бенчмарк, полученный из краудсорсинговых реальных случаев использования. Результаты оценки показывают:

  • FLUX.1 Kontext [pro] показывает отличную производительность во всех шести задачах генерации контекстных изображений
  • Достигает наивысших оценок в редактировании текста и сохранении персонажей
  • В скорости вывода он в 8 раз быстрее существующих продвинутых моделей (таких как GPT-Image)
  • Показывает конкурентоспособность в множественных измерениях качества, включая эстетику, следование промптам, генерацию текста и реализм

Ограничения использования и соображения

FLUX.1 Kontext имеет некоторые ограничения в текущей реализации:

Ограничения многоходового редактирования: Чрезмерные многоходовые сессии редактирования могут вводить визуальные артефакты и снижать качество изображения. Согласно официальным демонстрациям, после более чем шести итеративных правок сгенерированные изображения могут показывать визуальную деградацию и очевидные артефакты.

Точность следования инструкциям: Модель может иногда не следовать инструкциям точно, игнорируя конкретные требования промптов в редких случаях.

Ограничения знаний о мире: Знания модели о мире остаются ограниченными, влияя на ее способность генерировать контекстно точный контент.

Влияние процесса дистилляции: Процесс дистилляции может вводить визуальные артефакты, влияющие на верность вывода.

Официальный запуск BFL Playground

Чтобы сделать проще для пользователей тестировать и демонстрировать функции модели, Black Forest Labs одновременно запустил платформу FLUX Playground. Этот упрощенный интерфейс позволяет разработчикам и командам тестировать самые продвинутые модели FLUX без технической интеграции.

Playground предоставляет разработчикам способность валидировать случаи использования, демонстрировать функции заинтересованным сторонам и экспериментировать с продвинутой генерацией изображений в реальном времени. Будь то оценка технической осуществимости или демонстрация результатов лицам, принимающим решения, Playground предоставляет немедленный доступ для оценки возможностей FLUX перед вступлением в полную реализацию API.

Поддержка платформ и экосистема

FLUX.1 Kontext в настоящее время доступен через множественные платформы:

Платформы прямой поддержки: KreaAI, Freepik, Lightricks, OpenArt и LeonardoAI

Инфраструктурные партнеры: FAL, Replicate, Runware, DataCrunch, TogetherAI и ComfyOrg

OpenArt и KreaAI предоставили поддержку для сбора данных предпочтений.

Техническое значение и влияние

Выпуск FLUX.1 Kontext отмечает важное продвижение в технологии редактирования изображений. Этот набор моделей унифицирует функции мгновенного редактирования изображений на основе текста и генерации текст-в-изображения, предоставляя пользователям беспрецедентную творческую гибкость.

Как мультимодальная flow модель, FLUX.1 Kontext сочетает продвинутое сохранение согласованности персонажей, понимание контекста и возможности локального редактирования с мощными функциями синтеза текст-в-изображения, предоставляя мощные инструменты для профессиональных дизайнеров и создателей.

Связанные ссылки