Tencent объявляет о выпуске Hunyuan Image 3.0 - крупнейшей в мире модели генерации изображений из текста с открытым исходным кодом
Tencent официально открыл исходный код Hunyuan Image 3.0 28 сентября, первой коммерчески применимой нативной мультимодальной модели генерации изображений с открытым исходным кодом, а также крупнейшей в мире модели генерации изображений с открытым исходным кодом с общим количеством параметров до 80 млрд.
Ключевые особенности
Беспрецедентный масштаб параметров
Hunyuan Image 3.0 имеет в общей сложности 80 млрд. параметров с 13 млрд. активных параметров, используя архитектуру MoE (Mixture of Experts) с 64 экспертами, что делает его самой крупной в мире моделью генерации изображений из текста с открытым исходным кодом.
Возможности рассуждения на основе мировых знаний
Модель обладает нативными мультимодальными возможностями на основе рассуждений о мировых знаниях, способна генерировать более точный и насыщенный визуальный контент, объединяя здравый смысл и профессиональные знания. Модель может:
- Генерировать пошаговые руководства по рисованию в формате 3×3 и визуализации алгоритмов
- Объяснять физические принципы, исторические события и биологические процессы
- Создавать визуальные произведения на основе литературных произведений и поэзии
Сложное понимание смысла на тысячах символов
Hunyuan Image 3.0 поддерживает сложное понимание смысла более чем на 1000 символов, что крайне редко среди аналогичных моделей с открытым исходным кодом. Модель может:
- Обрабатывать сложные описания сцен
- Понимать многоуровневые требования к детализации
- Поддерживать двуязычный ввод на китайском и английском языках
Точный рендеринг текста
Модель демонстрирует исключительную эффективность в генерации текста внутри изображений, поддерживая:
- Заголовки на плакатах
- Комментарии на инфографике
- Логотипы и торговые марки
- Смешанный многоязычный текст
Техническая архитектура
Hunyuan Image 3.0 использует инновационную архитектуру MoE+Transfusion, объединяющую возможности мультимодального понимания и генерации. В отличие от традиционных архитектур DiT, эта модель использует унифицированную архитектуру автогрессии, обеспечивая глубокую интеграцию текстовых и графических модальностей.
Обучающие данные
- 5 млрд. пар изображений и текстов
- 6Т текстовых токенов
- Прогрессивная стратегия обучения
- Оптимизация постобучения с помощью обучения с подкреплением
Требования к использованию
Конфигурация оборудования
Эта модель может доставить серьезные трудности для обычных потребительских видеокарт, учитывая ее огромный объем в 80 млрд. параметров; даже квантованные версии могут быть трудны для стабильной работы на обычных потребительских видеокартах.
- GPU: ≥3×80 ГБ видеопамяти (рекомендуется 4×80 ГБ)
- Хранилище: 170 ГБ свободного места
- Память: более 64 ГБ системной памяти
- Система: Linux + CUDA 12.8
План открытого исходного кода
Hunyuan Image 3.0 предоставляет полное решение с открытым исходным кодом, включая:
- Код вывода и веса модели
- Базовая версия HunyuanImage-3.0
- Версия с инструкциями HunyuanImage-3.0-Instruct (поддерживает возможности рассуждения)
- В будущем планируется поддержка генерации изображений по изображению, многоразовое взаимодействие и другие функции
Лицензия открытого исходного кода
Hunyuan Image 3.0 использует лицензию открытого исходного кода Tencent Hunyuan Community License Agreement. Эта лицензия позволяет:
- Физическим и юридическим лицам бесплатно использовать, копировать, распространять и модифицировать модель
- Поддерживает коммерческое использование и разработку производных работ
- Разрешает предоставление хостинговых услуг через API или другие средства
Важные ограничения
- Географические ограничения: Лицензия не применяется к регионам ЕС, Великобритании и Южной Кореи
- Ограничения по числу пользователей: Если в вашем продукте или сервисе более 100 миллионов активных пользователей в месяц, вам нужно подать заявку в Tencent на дополнительную лицензию
- Ограничения использования: Запрещено использовать выводы модели для улучшения других моделей ИИ (кроме серии Hunyuan)
- Требования к соблюдению: Должны соблюдаться законы и нормативные акты разных стран и политики приемлемого использования
Связанные ссылки
- Официальный сайт: https://hunyuan.tencent.com/image
- Репозиторий GitHub: https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
- Модель HuggingFace: https://huggingface.co/tencent/HunyuanImage-3.0
- Технический отчет: Технический отчет по HunyuanImage 3.0