Microsoft、TRELLIS.2を発表 - 40億パラメータの画像から3D生成モデル
Microsoftは最近、40億パラメータを持つ大規模3D生成モデルTRELLIS.2を発表しました。このモデルは、高精度な画像から3D生成タスク専用に設計されています。O-Voxelと呼ばれる新しいスパースボクセル構造を採用し、複雑なトポロジー、鮮明な特徴、完全なPBRマテリアルを持つ3Dアセットを再構築・生成できます。

主な特徴
高品質と高効率
TRELLIS.2は、Sparse 3D VAE技術を使用し、16倍の空間ダウンサンプリングで3Dアセットをコンパクトな潜在空間にエンコードします。モデルは高解像度の完全テクスチャアセットを印象的な速度で生成できます:
- 512³解像度: 約3秒(形状2秒 + マテリアル1秒)
- 1024³解像度: 約17秒(形状10秒 + マテリアル7秒)
- 1536³解像度: 約60秒(形状35秒 + マテリアル25秒)
これらのテスト結果はNVIDIA H100 GPUに基づいています。
複雑なトポロジーのサポート
O-Voxel表現法は、従来のアイソサーフェスフィールドの制限を打破し、複雑な構造を堅牢に処理できます:
- オープンサーフェス: 衣服、葉など
- 非多様体ジオメトリ: 複雑な幾何学的形状
- 内部閉鎖構造: 内部空洞を含むモデル
豊富なマテリアル表現
基本的な色情報を超えて、TRELLIS.2は基本色、粗さ、金属性、不透明度などのさまざまな表面属性をモデル化でき、生成された3Dアセットのフォトリアリスティックなレンダリングと透明度のサポートを実現します。
高速データ処理
モデルのデータ処理パイプラインは即座の変換のために最適化されており、レンダリングと最適化プロセスから完全に解放されています:
- テクスチャメッシュからO-Voxelへ: 単一CPUで10秒未満
- O-Voxelからテクスチャメッシュへ: CUDAアクセラレーションで100ミリ秒未満
技術実装
TRELLIS.2は、いくつかの専門的な高性能パッケージの上に構築されています:
- O-Voxel: テクスチャメッシュとO-Voxel表現間の変換を処理するコアライブラリ
- FlexGEMM: Tritonベースの効率的なスパース畳み込み実装
- CuMesh: ポストプロセッシング、リメッシュ、簡略化、UV展開用のCUDAアクセラレーションメッシュ処理ユーティリティ
モデルの入手可能性
事前学習済みのTRELLIS.2-4Bモデルは、Hugging Faceで入手可能で、512³から1536³までの解像度をサポートしています。モデルとコードはMITライセンスの下で公開されており、研究者や開発者がアクセスできます。
プロジェクトコードはLinuxシステムが必要で、少なくとも24GBのメモリを持つNVIDIA GPUが必要です。コードはNVIDIA A100およびH100 GPUで検証されています。
実用的な応用
TRELLIS.2は、ゲーム開発、バーチャルリアリティコンテンツ制作、製品デザインの視覚化など、高品質な3Dアセットの迅速な生成を必要とするシナリオに特に適しています。生成された3Dアセットには完全なPBRマテリアル情報が含まれており、さまざまな3DソフトウェアやエンジンでGLB形式に直接エクスポートして使用できます。
技術に詳しくないユーザー向けに、チームはWebベースのデモインターフェースも提供しており、コードを書いたり複雑な環境を設定したりすることなく、画像を直接アップロードして3D生成が可能です。