Black Forest Labs выпускает открытую версию FLUX.1 Krea [dev] с нативной поддержкой ComfyUI
31.07.2025
OmniSVG: Университет Фудань и StepFun запускают унифицированную модель генерации векторной графики
Университет Фудань и StepFun совместно выпустили OmniSVG, унифицированную модель генерации масштабируемой векторной графики (SVG). Эта модель может генерировать высококачественную векторную графику от простых иконок до сложных аниме-персонажей через различные методы ввода, включая текст, изображения или ссылки на персонажей.
В отличие от традиционных моделей генерации изображений, OmniSVG производит бесконечно масштабируемые и полностью редактируемые SVG файлы, позволяя дизайнерам напрямую использовать сгенерированные результаты для пост-обработки и модификации, значительно улучшая практичность графики, сгенерированной ИИ, в профессиональных рабочих процессах дизайна.
Технические инновации и принципы работы
OmniSVG построена на предобученной модели видения-языка (VLM) Qwen-VL и решает основные проблемы в генерации векторной графики через инновационные методы токенизации SVG. Модель параметризует SVG команды и координаты в дискретные токены, разделяя структурную логику от геометрических деталей, одновременно сохраняя выразительную способность сложных SVG структур.
Этот дизайн предлагает несколько ключевых преимуществ:
- Эффективный процесс генерации: Скорость обучения улучшена более чем в 3 раза по сравнению с традиционными методами
- Поддержка длинного контекста: Обрабатывает последовательности до 30,000 токенов, поддерживая генерацию сложных SVG с богатыми деталями
- Совместимость мультимодального ввода: Поддерживает различные методы ввода, включая текстовые описания, ссылки на изображения или ссылки на персонажей
Демонстрация процесса генерации:
Множественные режимы генерации
OmniSVG поддерживает множественные режимы генерации для удовлетворения потребностей различных сценариев применения:
Генерация текст-в-SVG
Пользователи могут генерировать семантически подходящую векторную графику через описания на естественном языке, такие как “мультипликационный кот, сидящий под вишневым деревом.”
Конвертация изображение-в-SVG
Автоматически конвертирует растровые изображения (такие как фотографии или нарисованные от руки эскизы) в векторную графику, состоящую из путей, сохраняя визуальные особенности оригинального изображения, одновременно получая редактируемость.
Генерация SVG с ссылкой на персонажа
Генерирует векторную графику, которая сохраняет те же особенности персонажа, но с различными позами или сценариями на основе существующих изображений персонажей, что особенно ценно для дизайна анимационных и игровых персонажей.
Набор данных MMSVG-2M
Для продвижения технологии генерации SVG исследовательская команда открыла исходный код набора данных MMSVG-2M, первого крупномасштабного мультимодального набора данных SVG, содержащего 2 миллиона образцов, охватывающих категории, такие как иконки, иллюстрации и дизайн персонажей.
Ключевые особенности набора данных MMSVG-2M включают:
- Богатое разнообразие: Охватывает от простых иконок до сложного дизайна персонажей с широким диапазоном сложности
- Мультимодальные аннотации: Каждый SVG поставляется с текстовыми описаниями и соответствующими растровыми рендерингами
- Высококачественные образцы: Предоставляет образцы дизайна векторной графики профессионального уровня
В настоящее время исследовательская команда открыла исходный код поднаборов данных MMSVG-Icon и MMSVG-Illustration на платформе Hugging Face, с набором данных MMSVG-Character, запланированным для выпуска в ближайшем будущем.
Потенциал применения и ограничения
Сценарии применения
- Автоматизация дизайна: Быстро генерировать иконки брендов и иллюстрационные материалы, сокращая время ручного рисования
- Создание динамического контента: Пакетная генерация последовательностей действий персонажей в сочетании с инструментами анимации
- Кросс-платформенная адаптация: Сгенерированная векторная графика может масштабироваться без потерь, подходя для различных разрешений от мобильных устройств до 4K дисплеев
Текущие ограничения
- Скорость генерации: Сложные образцы требуют генерации десятков тысяч токенов, что приводит к более длительному времени вывода (например, 139 секунд для генерации аниме-персонажа)
- Стилевое обобщение: Ограниченные эффекты конвертации для входных изображений не в стиле обучающего набора, требующие дальнейшей интеграции многостилевых данных
Планы открытого исходного кода и ресурсы
Исследовательская команда открыла исходный код наборов данных MMSVG-Icon и MMSVG-Illustration и планирует открыть исходный код кода модели и предобученных весов в ближайшем будущем. Открытие исходного кода проекта OmniSVG предоставит новую техническую парадигму для области генерации SVG, способствуя интеллектуальному обновлению инструментов дизайна.
Связанные ссылки
Выпуск OmniSVG знаменует важный прогресс в технологии генерации векторной графики, принося новые возможности в такие области, как графический дизайн, создание UI/UX и производство визуального контента, одновременно предоставляя новое направление для интеграции контента, сгенерированного ИИ, в профессиональные рабочие процессы дизайна.