Tencent открывает исходный код HunyuanVideo — новая эра генерации видео

Компания Tencent официально открыла исходный код HunyuanVideo — на данный момент самой крупной модели генерации видео в отрасли. Модель содержит 13 миллиардов параметров и демонстрирует высокие результаты по качеству видео и стабильности движения. Теперь она полностью доступна с открытым исходным кодом на платформах GitHub и Hugging Face.

Основные особенности модели

Унифицированная архитектура генерации изображений и видео

Использует гибридный дизайн модели «двойной поток — единый поток»
Применяет архитектуру Transformer с полной системой внимания
Поддерживает единый процесс генерации как изображений, так и видео

Продвинутые технические возможности

В качестве текстового энкодера используется мультимодальная большая языковая модель (MLLM)
Реализована 3D VAE для пространственно-временного сжатия
Встроенная система переписывания подсказок с режимами Normal и Master
Поддержка генерации видео высокого разрешения до 720p

Уникальные преимущества

Хорошо справляется с контентом в китайском стиле, включая традиционные и современные темы
Поддерживает смену кадров по подсказкам с сохранением идентичности объектов
Сохраняет физическую стабильность даже при интенсивных движениях
Профессиональные оценки показывают высокие результаты по соответствию тексту, качеству движения и визуальному качеству по сравнению с существующими закрытыми моделями

Требования к оборудованию

Минимум: 45 ГБ видеопамяти GPU (разрешение 544x960)
Рекомендуется: 60 ГБ видеопамяти GPU (разрешение 720x1280)
Совместимость с H800/H20 и другими видеокартами

Открытые ресурсы

Модель доступна по следующим ссылкам:

Репозиторий GitHub: Tencent/HunyuanVideo
Модель на Hugging Face: tencent/HunyuanVideo

Онлайн-демонстрация

Пользователи могут попробовать HunyuanVideo через:

Официальный сайт: Платформа генерации видео Hunyuan
Приложение Tencent Yuanbao — раздел AI Video

Сопутствующие технологии

Помимо основной модели генерации видео, Tencent представила ряд дополнительных технологий:

Совместная генерация голоса и изображения
- Поддержка генерации видео с речью и движениями лица
- Точный контроль движений всего тела
Понимание видеоконтента и озвучка
- Интеллектуальное распознавание содержания видео
- Генерация подходящей озвучки на основе подсказок
Передача мимики лица
- Точная синхронизация губ
- Естественная передача выражений

Перспективы развития

Открытие исходного кода HunyuanVideo открывает новые возможности для всей сферы генерации видео с помощью искусственного интеллекта. Tencent надеется, что публикация исходного кода и весов модели поможет развитию экосистемы генерации видео и позволит большему числу разработчиков и исследователей участвовать в инновациях.

С дальнейшей оптимизацией модели и поддержкой сообщества ожидается, что технологии генерации видео на базе ИИ будут играть всё более важную роль в творчестве, производстве контента и других сферах.

Связанные ресурсы

Официальная документация и примеры: GitHub Documentation
Онлайн-демо: Платформа генерации видео Hunyuan
Техническое сообщество: GitHub Issues