Skip to content
ComfyUI Wiki
Помогите создать лучшую базу знаний ComfyUI Стать спонсором
НовостиTencent открывает исходный код Hunyuan Image 3.0 - крупнейшая в мире модель генерации изображений из текста с открытым исходным кодом

Tencent объявляет о выпуске Hunyuan Image 3.0 - крупнейшей в мире модели генерации изображений из текста с открытым исходным кодом

Tencent официально открыл исходный код Hunyuan Image 3.0 28 сентября, первой коммерчески применимой нативной мультимодальной модели генерации изображений с открытым исходным кодом, а также крупнейшей в мире модели генерации изображений с открытым исходным кодом с общим количеством параметров до 80 млрд.

Ключевые особенности

Беспрецедентный масштаб параметров

Hunyuan Image 3.0 имеет в общей сложности 80 млрд. параметров с 13 млрд. активных параметров, используя архитектуру MoE (Mixture of Experts) с 64 экспертами, что делает его самой крупной в мире моделью генерации изображений из текста с открытым исходным кодом.

Возможности рассуждения на основе мировых знаний

Модель обладает нативными мультимодальными возможностями на основе рассуждений о мировых знаниях, способна генерировать более точный и насыщенный визуальный контент, объединяя здравый смысл и профессиональные знания. Модель может:

  • Генерировать пошаговые руководства по рисованию в формате 3×3 и визуализации алгоритмов
  • Объяснять физические принципы, исторические события и биологические процессы
  • Создавать визуальные произведения на основе литературных произведений и поэзии

Сложное понимание смысла на тысячах символов

Hunyuan Image 3.0 поддерживает сложное понимание смысла более чем на 1000 символов, что крайне редко среди аналогичных моделей с открытым исходным кодом. Модель может:

  • Обрабатывать сложные описания сцен
  • Понимать многоуровневые требования к детализации
  • Поддерживать двуязычный ввод на китайском и английском языках

Точный рендеринг текста

Модель демонстрирует исключительную эффективность в генерации текста внутри изображений, поддерживая:

  • Заголовки на плакатах
  • Комментарии на инфографике
  • Логотипы и торговые марки
  • Смешанный многоязычный текст

Техническая архитектура

Hunyuan Image 3.0 использует инновационную архитектуру MoE+Transfusion, объединяющую возможности мультимодального понимания и генерации. В отличие от традиционных архитектур DiT, эта модель использует унифицированную архитектуру автогрессии, обеспечивая глубокую интеграцию текстовых и графических модальностей.

Обучающие данные

  • 5 млрд. пар изображений и текстов
  • 6Т текстовых токенов
  • Прогрессивная стратегия обучения
  • Оптимизация постобучения с помощью обучения с подкреплением

Требования к использованию

Конфигурация оборудования

Эта модель может доставить серьезные трудности для обычных потребительских видеокарт, учитывая ее огромный объем в 80 млрд. параметров; даже квантованные версии могут быть трудны для стабильной работы на обычных потребительских видеокартах.

  • GPU: ≥3×80 ГБ видеопамяти (рекомендуется 4×80 ГБ)
  • Хранилище: 170 ГБ свободного места
  • Память: более 64 ГБ системной памяти
  • Система: Linux + CUDA 12.8

План открытого исходного кода

Hunyuan Image 3.0 предоставляет полное решение с открытым исходным кодом, включая:

  • Код вывода и веса модели
  • Базовая версия HunyuanImage-3.0
  • Версия с инструкциями HunyuanImage-3.0-Instruct (поддерживает возможности рассуждения)
  • В будущем планируется поддержка генерации изображений по изображению, многоразовое взаимодействие и другие функции

Лицензия открытого исходного кода

Hunyuan Image 3.0 использует лицензию открытого исходного кода Tencent Hunyuan Community License Agreement. Эта лицензия позволяет:

  • Физическим и юридическим лицам бесплатно использовать, копировать, распространять и модифицировать модель
  • Поддерживает коммерческое использование и разработку производных работ
  • Разрешает предоставление хостинговых услуг через API или другие средства

Важные ограничения

  • Географические ограничения: Лицензия не применяется к регионам ЕС, Великобритании и Южной Кореи
  • Ограничения по числу пользователей: Если в вашем продукте или сервисе более 100 миллионов активных пользователей в месяц, вам нужно подать заявку в Tencent на дополнительную лицензию
  • Ограничения использования: Запрещено использовать выводы модели для улучшения других моделей ИИ (кроме серии Hunyuan)
  • Требования к соблюдению: Должны соблюдаться законы и нормативные акты разных стран и политики приемлемого использования

Связанные ссылки