テンセントがマルチモーダル動画生成システムHunyuanCustomを発表
2025/05/10
title: “FlexiAct:異種シナリオにおける柔軟なアクション制御” description: “清華大学とテンセントARCラボが共同開発したFlexiActは、参照動画からのアクションを任意のターゲット画像に転送しながらアイデンティティの一貫性を維持します” tag: AI, video-generation, action-control, image-to-video date: 2025-05-08
FlexiAct:異種シナリオにおける柔軟なアクション制御
清華大学とテンセントARCラボの研究チームは最近、参照動画からのアクションを任意のターゲット画像に転送できる新技術FlexiActを発表しました。この技術はレイアウト、視点、骨格構造が異なる場合でも良好な結果を維持します。この技術はSIGGRAPH 2025に採択されました。
技術的背景
アクションカスタマイズとは、入力制御信号によって指示されたアクションを被写体が実行する動画を生成することを指します。現在の方法は主にポーズ誘導またはグローバルモーションカスタマイズを使用していますが、空間構造(レイアウト、骨格、視点の一貫性など)によって厳しく制約されており、異なる被写体やシナリオへの適応が困難です。
技術革新
FlexiActは既存技術の限界を克服し、以下を実現します:
- 精密なアクション制御
- 空間構造の適応
- アイデンティティの一貫性保持
この技術は2つの主要コンポーネントを中心に構築されています:
-
RefAdapter:空間適応と一貫性保持に優れた軽量の画像条件付きアダプターで、外観の一貫性と構造的柔軟性のバランスをとります。
-
FAE(周波数認識アクション抽出):研究チームの観察に基づき、ノイズ除去プロセスでは異なるタイムステップで動き(低周波)と外観の詳細(高周波)に対するさまざまなレベルの注意が示されます。FAEは別個の時空間アーキテクチャに依存せず、ノイズ除去プロセス中に直接アクション抽出を実現します。
既存の方法と比較して、FlexiActは異種シナリオで顕著なパフォーマンス上の利点を示しています:
応用シナリオ
FlexiActはさまざまなシナリオで広く応用できます:
- 人間のアクション転送:人間のアクションをゲームキャラクターや漫画のキャラクターに転送
- 動物アニメーション生成:動物画像に動的アクションを追加
- カメラの動的効果:異なるカメラ視点での動的効果の作成
- クロスドメインアクション移行:人間のアクションを動物に適用するなど、異なる種間でのアクション移行の実装
データとモデル
研究チームはこの研究のために専用のデータセットを構築し、さまざまなアクションタイプを含めました:
- 人間のアクション:歩行、しゃがみ、ジャンプなど
- 動物のアクション:走行、ジャンプ、立位など
- カメラアクション:前進移動、回転、ズームなど
FlexiActはCogVideoX-5Bモデルに基づいて開発され、高品質なアクション転送効果を実現しています。
オープンソースリソース
研究チームは関連リソースをオープンソース化しています:
- FlexiAct事前学習モデル(CogVideoX-5Bベース)
- トレーニングとテスト用のデータセット
- トレーニングと推論用のコード
- 詳細な説明と例
今後の計画
プロジェクトの更新ログによると、研究チームは以下を計画しています:
- トレーニングと推論のコードのリリース
- FlexiActチェックポイント(CogVideoX-5Bベース)のリリース
- トレーニングデータのリリース
- Gradioデモのリリース