OmniAvatar: выпуск эффективной модели генерации видео виртуальных людей, управляемой аудио

OmniAvatar - это проект с открытым исходным кодом, совместно разработанный Чжэцзянским университетом и группой Alibaba (выпущен в июне 2025 года). Это модель генерации видео цифровых людей в полный рост, управляемая аудио, которая создает естественные и плавные видео виртуальных людей через одно эталонное изображение, аудиовход и текстовые подсказки. Она поддерживает точную синхронизацию губ, контроль движений всего тела и многосценное взаимодействие, что знаменует значительный прогресс в технологии цифровых людей.

I. Основные технические принципы

Пиксельное многослойное аудиовстраивание

Использует Wav2Vec2 для извлечения аудио-особенностей, выравнивая голосовые характеристики в скрытое пространство видео пиксель за пикселем через модуль Audio Pack, встраивая аудиоинформацию на нескольких временных слоях в диффузионной модели (DiT).
Преимущества: Достигает синхронизации губ на уровне кадров (таких как тонкие выражения, вызванные придыхательными словами) и координации движений всего тела (как движения плеч и ритмы жестов), с более высокой точностью синхронизации, чем основные модели.

Стратегия тонкой настройки LoRA

Вставляет матрицы низкоранговой адаптации (LoRA) в слои внимания Transformer и слои прямой сети, тонко настраивая только дополнительные параметры, сохраняя при этом возможности базовой модели.
Эффекты: Предотвращает переобучение, улучшает стабильность аудио-видео выравнивания и поддерживает детальный контроль через текстовые подсказки (такие как амплитуда жестов и эмоциональное выражение).

Механизм генерации длинных видео

Включает скрытое кодирование эталонного изображения как якоря идентичности, в сочетании со стратегией перекрытия кадров и прогрессивными алгоритмами генерации для смягчения проблем дрейфа цвета и несогласованности идентичности в длинных видео.

II. Основные особенности и инновации

Генерация движений всего тела

Прорывает традиционное ограничение “движения только головы”, генерируя естественные и скоординированные движения тела (такие как махание, тост, танцы).

Возможности многомодального контроля

Контроль текстовых подсказок: Точная настройка действий (как “праздничный тост”), фонов (как “звездная живая студия”) и эмоций (как “радость/гнев”) через описания.
Взаимодействие с объектами: Поддерживает взаимодействие виртуальных людей с объектами сцены (как демонстрации продуктов), улучшая реализм в электронной коммерции и маркетинге.

Поддержка многоязычности и длинных видео

Поддерживает адаптацию синхронизации губ для 31 языка, включая китайский, английский и японский, способна генерировать связные видео более 10 секунд (требует устройства с высоким VRAM).

III. Богатые видео-демонстрации

Официальный веб-сайт OmniAvatar предоставляет многочисленные реальные демонстрации, охватывающие различные сценарии и возможности контроля. Вот избранные видео: