Tencent открывает исходный код Hunyuan Image 3.0 - крупнейшая в мире модель генерации изображений из текста с открытым исходным кодом

Tencent официально открыл исходный код Hunyuan Image 3.0 28 сентября, первой коммерчески применимой нативной мультимодальной модели генерации изображений с открытым исходным кодом, а также крупнейшей в мире модели генерации изображений с открытым исходным кодом с общим количеством параметров до 80 млрд.

Ключевые особенности

Беспрецедентный масштаб параметров

Hunyuan Image 3.0 имеет в общей сложности 80 млрд. параметров с 13 млрд. активных параметров, используя архитектуру MoE (Mixture of Experts) с 64 экспертами, что делает его самой крупной в мире моделью генерации изображений из текста с открытым исходным кодом.

Возможности рассуждения на основе мировых знаний

Модель обладает нативными мультимодальными возможностями на основе рассуждений о мировых знаниях, способна генерировать более точный и насыщенный визуальный контент, объединяя здравый смысл и профессиональные знания. Модель может:

Генерировать пошаговые руководства по рисованию в формате 3×3 и визуализации алгоритмов
Объяснять физические принципы, исторические события и биологические процессы
Создавать визуальные произведения на основе литературных произведений и поэзии

Сложное понимание смысла на тысячах символов

Hunyuan Image 3.0 поддерживает сложное понимание смысла более чем на 1000 символов, что крайне редко среди аналогичных моделей с открытым исходным кодом. Модель может:

Обрабатывать сложные описания сцен
Понимать многоуровневые требования к детализации
Поддерживать двуязычный ввод на китайском и английском языках

Точный рендеринг текста

Модель демонстрирует исключительную эффективность в генерации текста внутри изображений, поддерживая:

Заголовки на плакатах
Комментарии на инфографике
Логотипы и торговые марки
Смешанный многоязычный текст

Техническая архитектура

Hunyuan Image 3.0 использует инновационную архитектуру MoE+Transfusion, объединяющую возможности мультимодального понимания и генерации. В отличие от традиционных архитектур DiT, эта модель использует унифицированную архитектуру автогрессии, обеспечивая глубокую интеграцию текстовых и графических модальностей.

Обучающие данные

5 млрд. пар изображений и текстов
6Т текстовых токенов
Прогрессивная стратегия обучения
Оптимизация постобучения с помощью обучения с подкреплением

Требования к использованию

Конфигурация оборудования

Эта модель может доставить серьезные трудности для обычных потребительских видеокарт, учитывая ее огромный объем в 80 млрд. параметров; даже квантованные версии могут быть трудны для стабильной работы на обычных потребительских видеокартах.

GPU: ≥3×80 ГБ видеопамяти (рекомендуется 4×80 ГБ)
Хранилище: 170 ГБ свободного места
Память: более 64 ГБ системной памяти
Система: Linux + CUDA 12.8

План открытого исходного кода

Hunyuan Image 3.0 предоставляет полное решение с открытым исходным кодом, включая:

Код вывода и веса модели
Базовая версия HunyuanImage-3.0
Версия с инструкциями HunyuanImage-3.0-Instruct (поддерживает возможности рассуждения)
В будущем планируется поддержка генерации изображений по изображению, многоразовое взаимодействие и другие функции

Лицензия открытого исходного кода

Hunyuan Image 3.0 использует лицензию открытого исходного кода Tencent Hunyuan Community License Agreement. Эта лицензия позволяет:

Физическим и юридическим лицам бесплатно использовать, копировать, распространять и модифицировать модель
Поддерживает коммерческое использование и разработку производных работ
Разрешает предоставление хостинговых услуг через API или другие средства

Важные ограничения

Географические ограничения: Лицензия не применяется к регионам ЕС, Великобритании и Южной Кореи
Ограничения по числу пользователей: Если в вашем продукте или сервисе более 100 миллионов активных пользователей в месяц, вам нужно подать заявку в Tencent на дополнительную лицензию
Ограничения использования: Запрещено использовать выводы модели для улучшения других моделей ИИ (кроме серии Hunyuan)
Требования к соблюдению: Должны соблюдаться законы и нормативные акты разных стран и политики приемлемого использования

Связанные ссылки

Официальный сайт: https://hunyuan.tencent.com/image
Репозиторий GitHub: https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
Модель HuggingFace: https://huggingface.co/tencent/HunyuanImage-3.0
Технический отчет: Технический отчет по HunyuanImage 3.0