InfiniteTalk オープンソースリリース - 無制限長対応の音声駆動型ビデオ生成技術

InfiniteTalk デモ

MeiGen-AIチームは最近、InfiniteTalkモデルをオープンソース化しました。これは無制限長対応の音声駆動型ビデオ生成を可能にする革新的なプロジェクトです。この技術は、精密なリップシンクを実現するだけでなく、安定した体の動きと表情を維持し、デジタルヒューマン技術分野に重要な突破口をもたらしました。

主な特徴

InfiniteTalkは疎フレームビデオダビングフレームワークを採用しており、従来のリップシンクのみに注目する方法と比較して、以下のような顕著な利点があります：

精密なリップシンク: 音声との正確な口の形のマッチング
無制限長生成: 超長編ビデオコンテンツ生成のサポート
全身モーション同期: 口だけでなく、頭、体、表情の同期
安定したアイデンティティ保持: 長時間生成過程での人物アイデンティティの一貫性保持
マルチシナリオ対応: 画像からビデオ、ビデオからビデオへの変換の両方をサポート

コア機能

音声駆動型ビデオ生成

InfiniteTalkは入力された音声ファイルに応じて、同期されたビデオコンテンツを生成できます。話し言葉でも歌でも、自然なリップシンク効果を実現します。

無制限長対応

この技術は従来のビデオ生成の長さ制限を突破し、理論上任意の長さのビデオコンテンツ生成が可能です。特に長時間のデジタルヒューマン解説ビデオ制作に適しています。

マルチ解像度対応

モデルは480Pと720Pの2つの解像度をサポートしており、ユーザーは必要に応じて適切な出力品質を選択できます。

技術アーキテクチャ

InfiniteTalkはWan2.1モデルをベースに構築され、革新的な疎フレーム処理技術を活用して効率的なビデオ生成を実現しています。モデルはコンテキストウィンドウメカニズムを採用し、デフォルト設定では81フレームのコンテキストウィンドウを使用しており、これが無制限生成を実現する鍵となる技術です。

オープンソース情報

InfiniteTalkプロジェクトはApache 2.0ライセンスの下でGitHub上でオープンソース化されています。プロジェクトには完全なモデルウェイト、コード実装、使用ドキュメントが含まれており、研究者と開発者に包括的なソリューションを提供します。

Qwen-Image-Layered リリース - レイヤーベース編集をサポートする画像生成モデル