AIGC 最新ニュース
最新のAIGCニュースと更新情報をお届けします。
OmniSVG:復旦大学とStepFunが統合ベクターグラフィックス生成モデルを発表
OmniSVGは、テキスト、画像、キャラクターリファレンスなど様々な入力から高度に複雑で編集可能なベクターグラフィックスを生成できる新しい統合マルチモーダルSVG生成モデルです
TTT-Video: 長時間ビデオ生成のための技術
研究者らがCogVideoX 5Bをベースにしたテスト時学習技術を用いたTTT-Videoモデルを開発し、最大63秒の一貫性のあるビデオ生成を実現
ByteDanceがUNOを発表:少ないものから多いものへの生成能力の拡張
ByteDanceのクリエイティブインテリジェンスチームが、コンテキスト生成によってより高い制御性を実現するUNOモデルを発表し、単一から複数の被写体への高品質な画像生成を可能に
EasyControl: 拡散トランスフォーマーに効率的で柔軟な制御をもたらす新フレームワーク
Tiamat AIチームがEasyControlフレームワークをリリース、DiTモデルに条件付き制御機能を追加、ComfyUI-easycontrolプラグインを通じてComfyUIでのサポートが可能に
HiDream-I1オープンソースリリース - 次世代画像生成モデル
HiDream.aiが17B パラメータを持つ新しいオープンソーステキスト生成画像モデルHiDream-I1をリリース。複数のベンチマークで既存のオープンソースモデルを上回り、様々なスタイルの高品質画像生成をサポート
Hi3DGen: 法線橋渡しによる高忠実度3D形状生成の新フレームワーク
Stable-Xチームが、法線橋渡し技術により既存手法の幾何学的詳細の欠如を解決する、画像から高忠実度3Dモデルを生成する革新的フレームワークHi3DGenを発表
VAST AI ResearchがTripoSFをオープンソース化:3D生成技術の新たな高みを再定義
革新的なSparseFlex表現法に基づくTripoSFは、1024³解像度までの3Dモデル生成をサポートし、開放面や複雑な内部構造の処理が可能で、3Dアセットの品質を大幅に向上させます
崑崙万維がSkyReels-A2をオープンソース化:商用グレードの動画生成フレームワーク
崑崙万維が世界初の商用グレードの制御可能な動画生成フレームワークSkyReels-A2をリリース。デュアルブランチアーキテクチャにより複数要素の動画生成を実現し、Eコマース、映画制作などの分野に新たな可能性をもたらす
アリババの通義研究所がVACEをリリース:動画制作と編集が統合時代へ
アリババグループの通義研究所が、テキストから動画生成、動画編集、複雑なタスク組み合わせまでをカバーする世界初の統合フレームワークVACEを発表
StarVector: SVGコード生成のためのマルチモーダルモデル
StarVectorプロジェクトは、画像やテキストからSVGベクターグラフィックスコードを自動生成する機能を実装し、デザイナーや開発者に新しいクリエイティブツールを提供します。
バイトダンス、InfiniteYouをリリース:ユーザーのアイデンティティを保持しながら柔軟な写真再構築が可能に
バイトダンスが拡散トランスフォーマーに基づく革新的なフレームワークInfiniteYou(InfU)を発表。このフレームワークは、アイデンティティの類似性、テキスト画像の整合性、生成品質に関する既存手法の限界に対処しながら、ユーザーのアイデンティティを保持する柔軟な写真再構築を可能にします
StdGEN: 単一画像からの意味分解3Dキャラクター生成
清華大学とテンセントAI研究所が共同でStdGENを発表、単一画像から体、衣服、髪などのコンポーネントが分離された高品質な意味分解3Dキャラクターを生成する革新的パイプライン
Stability AIがStable Virtual Cameraをリリース:2D写真を3Dビデオに変換する技術
Stability AIが新しいAIモデルStable Virtual Cameraを発表。通常の写真をリアルな奥行きと遠近感を持つ3Dビデオに変換し、クリエイターに直感的なカメラコントロールを提供
テンセント、Hunyuan3D 2.0をリリース - 高品質な3D資産生成システム
テンセントは、テキストと画像から高解像度の3D資産を生成するための二段階プロセスを備えたHunyuan3D 2.0システムを発表しました。複数のオープンソースモデルシリーズを特徴としています
快手がReCamMaster単眼ビデオ再撮影技術を発表
快手科技がReCamMasterを発表しました。この技術は、ユーザーが単一のビデオから新しいカメラ視点と動きの軌跡を生成できる生成型ビデオ技術です。
Open-Sora 2.0のリリース:低コストで商業レベルのビデオ生成能力を実現
hpcaitechがOpen-Sora 2.0オープンソースビデオ生成モデルを発表。20万ドルのトレーニングコストで、トップクラスの商業モデルに近い性能を実現
アリ通義研究所がVACEを発表:統合ビデオ生成および編集モデル
アリ通義研究所が多機能ビデオ生成および編集モデルVACEを発表し、さまざまなビデオ処理タスクを単一のフレームワークに統合し、ビデオ制作のハードルを下げました。
マイクロソフト、ART多層透明画像生成技術を発表
マイクロソフトリサーチがグローバルテキストプロンプトに基づくインテリジェントレイヤー生成ソリューションを開発。50以上の独立レイヤーを含む透明画像の作成を可能に
Tencentが画像から動画を生成するオープンソースモデルHunyuanVideo-I2Vを公開
TencentのHunyuanチームが単一画像から5秒動画を生成可能なオープンソースモデルをリリース。スマートモーション生成とカスタムエフェクト機能を提供
Alibaba、文書解析ツールViDoRAGをオープンソース化
テキストと画像を同時に理解するAIシステム、複雑文書処理効率10%以上向上

智譜AIチーム(THUDM)CogView4をオープンソース化 - 中国語ネイティブ対応のDiTテキスト画像生成モデル
智譜AIチーム(THUDM)が日中バイリンガル入力と漢字生成可能なオープンソース画像生成モデルCogView4を公開、複数ベンチマークで首位を獲得
Sesame、CSM音声モデルで自然な対話を実現
SesameがデュアルTransformerアーキテクチャの会話型音声モデルCSMを公開、リアルタイム音声インタラクションとオープンソースコアを提供
アリババの万相 Wan2.1 ビデオ生成モデルが正式にオープンソースに
アリババが最新のビデオ生成モデルである Wan2.1 を正式にオープンソースにした。このモデルはわずか 8GB のビデオメモリで動作し、高画質ビデオ生成、動的字幕、多言語吹き替えをサポートし、VBench ランキングで Sora などを超える 86.22% の総スコアを記録した
アリババが ComfyUI Copilot をオープンソース:AI によって駆動されるスマートワークフローアシスタント
アリババ国際デジタル商業グループ(AIDC-AI)は ComfyUI Copilot プラグインをリリースしました。これは、自然言語インタラクションと AI によって駆動される機能を通じて ComfyUI の使用体験を簡素化し、中国語インタラクションをサポートし、スマートノードの推奨機能などを提供します。
アリババの万相2.1ビデオ生成モデルがオープンソースになる
アリババは、最新のビデオ生成モデルである万相2.1が2025年第二四半期にオープンソースになることを発表した。このモデルは、HDビデオ生成、動的字幕、多言語音声などをサポートし、VBenchランキングで84.7%の総スコアで首位に立っている
GoogleがPaliGemma 2 mixをリリース:多タスクをサポートするオープンソースの視覚言語モデル
Googleが新しいPaliGemma 2 mixモデルをリリースし、画像の説明、OCR、オブジェクト検出など多くの視覚タスクをサポートし、3B、10B、28Bの3つのスケールバージョンを提供
SkyworkがSkyReels-V1をオープンソース:AI短編映画創作に特化したビデオ生成モデル
Skyworkがオープンソースビデオ生成モデルSkyReels-V1をリリースし、文生ビデオと図生ビデオをサポートし、映画級の光影効果と自然な動作表現を実現し、商用も可能にした
Light-A-Video - トレーニング不要のビデオ再照明技術
研究者たちは新しいビデオ再照明手法Light-A-Videoを提案しました。この手法は、一貫した光注意(CLA)と段階的光融合(PLF)を通じて、時間的に滑らかなビデオ再照明効果を実現します。
StepFunがオープンソースのStep-Video-T2Vを発表:300億パラメータのテキストから動画生成モデル
StepFunはオープンソースのテキストから動画生成モデルStep-Video-T2Vを発表しました。300億パラメータを持ち、最大204フレームの高品質動画を生成でき、オンライン体験プラットフォームも提供しています。
Kuaishou(快手)がCineMasterを発表:3D認識による画期的な動画生成フレームワーク
Kuaishouが3D認識技術による高品質な動画コンテンツ制作を実現するCineMasterテキスト→動画生成フレームワークを正式リリース
アリババがInspireMusicをオープンソース化:革新的な音楽、歌声、オーディオ生成フレームワーク
アリババの最新オープンソースプロジェクトInspireMusic、FunAudioLLMをベースとした統合オーディオ生成フレームワークで、音楽制作、歌声生成など様々なオーディオ合成タスクをサポート。
Alibaba がACE++をオープンソース化:トレーニング不要のキャラクター一貫性画像生成
アリババ研究所が画像生成ツールACE++をオープンソース化。コンテキスト認識コンテンツ充填技術により、単一入力からキャラクター一貫性のある新しい画像を生成し、オンライン体験と3種類の専用モデルを提供。
ByteDanceがOmniHumanを発表:次世代人体アニメーション生成フレームワーク
ByteDanceの研究チームが人体アニメーション生成フレームワークOmniHuman-1を発表。1枚の画像とモーション信号から高品質な人体ビデオアニメーションを生成可能に。
DeepSeek、Janus-Pro-7Bをオープンソース化:マルチモーダルAIモデル
テンセントがHunyuan3D 2.0をリリース:オープンソースの高品質3D生成モデルと統合制作エンジン
テンセントがHunyuan3D 2.0をリリース。完全なDiTモデルをオープンソース化し、スケルタルアニメーションやスケッチから3Dへの変換など、革新的な機能を備えたワンストップ3D制作エンジンを提供。メタバースとゲームコンテンツ制作に革命をもたらす
ComfyUIプロジェクト2周年
ComfyUIは2周年を迎え、個人プロジェクトから世界で最も人気のある生成AIビジュアルツールへと進化しました。ComfyUI、お誕生日おめでとうございます!
NVIDIAオープンソースSana - 効率的な4K画像生成のAIモデル
NVIDIAは新しいSanaモデルを発表しました。このモデルは、一般的なノートパソコンのGPUで最大4K解像度の画像を迅速に生成でき、ComfyUIの統合をサポートしています。
ByteDanceがLatentSyncをオープンソース化 - 拡散モデルベースの高精度リップシンク技術
ByteDanceが音声条件付き潜在空間拡散モデルに基づくリップシンクツールLatentSyncをオープンソースで公開。実写と アニメーションキャラクターの両方で精密なリップシンクを実現し、従来手法のフレームジッター問題を解決

VMix:ByteDanceが革新的な文章から画像生成モデルの美的向上技術を発表
ByteDanceと中国科学技術大学が共同でVMixアダプターを発表。クロスアテンション混合制御技術によりAI生成画像の美的品質を向上させ、再学習なしで既存モデルと完璧に統合
テンセントがStereoCrafterをオープンソース化:通常の動画を3D動画に一発変換
テンセントAI LabとARC Labが共同開発したStereoCrafterモデルがオープンソース化。2D動画を高品質な立体3D動画に変換可能で、Apple Vision Proを含む様々な3Dディスプレイに対応
LuminaBrush: ControlNetの開発者がAIライティング編集ツールをリリース
ControlNetとIC-Lightの開発者lllyasvielが新作LuminaBrushを発表。2段階フレームワークで正確な照明効果の制御を実現し、直感的なブラシ操作体験を提供
Genesis:革新的汎用物理エンジンと生成AIプラットフォームをリリース
Genesisプロジェクトが新しい汎用物理エンジンと生成AIプラットフォームをリリース。物理シミュレーション、ロボット制御、生成AI機能を統合し、ロボットと物理AIアプリケーションの包括的なソリューションを提供
Odysseyが革新的な生成型ワールドモデルExplorerをリリース
Odysseyが初の生成型ワールドモデルExplorerを発表。2D画像を完全な3D世界に変換し、ダイナミックな効果とメインストリームのクリエイティブツールによる編集をサポートし、映画、ゲームなどの分野に革新的な変化をもたらします

ComfyUI Impact-Packプラグインでマイニングウイルスが発見 - 緊急対応が必要
ComfyUIコミュニティの人気プラグインImpact-PackがUltralyticsパッケージを通じてマイニングマルウェアを含んでいることが判明し、多数のユーザーに影響。本記事ではウイルスの状況と解決策を詳しく説明します。
Lumaが新しいAI画像生成モデルPhotonを発表 - 高コストパフォーマンスのクリエイティブ生成エンジン
LumaがPhotonとPhoton Flashという革新的な画像生成モデルを発表し、優れたコストパフォーマンスと卓越した画質でAIクリエイション分野を再定義
テンセント、HunyuanVideo - 動画生成の新時代を切り開く大規模モデルをオープンソース化
テンセントが業界最大規模の動画生成モデルHunyuanVideoを正式にオープンソース化。130億のパラメータを持ち、動画品質や動きの安定性などで最高水準を達成
Stability AI が Stable Diffusion 3.5 Large ControlNet モデルをリリース
Stability AI が Stable Diffusion 3.5 Large 用の新しい ControlNet モデル3種(Blur、Canny、Depth)をリリースし、画像生成のより精密な制御を実現
NVIDIA、Edify 3Dを発表 - 革新的な3Dアセット生成技術
NVIDIAは、新しいEdify 3D技術を発表しました。この技術は、詳細なジオメトリ、明確なトポロジー、高解像度のテクスチャ、PBRマテリアルを含む高品質の3Dアセットをわずか2分で生成することができます。

Lightricks、リアルタイムビデオ生成モデルLTX-Videoを発表
Lightricksは、DiTに基づくリアルタイムビデオ生成モデルLTX-Videoを発表しました。高品質なビデオをリアルタイムで生成でき、GitHubとHugging Faceでオープンソース化されています。

InstantX、FLUX.1-dev IP-Adapterモデルをリリース
InstantXチームは、FLUX.1-devに基づくIP-Adapterモデルをリリースし、FLUXモデルにより強力な画像参照機能をもたらしました
FLUX公式ツールスイートのリリース
Black Forest Labsがローカルリドロー、ControlNet、画像スタイル変換を含む多様なFLUX公式ツールをリリース
IC-Light V2リリース: 画像編集機能の強化
IC-Light V2は、油絵やアニメスタイルを含む様々なスタイライズ画像処理をサポートするFluxベースの画像編集モデルです。この記事では、IC-Light V2の新機能と応用について詳しく説明します。

Stable Diffusion 3.5の登場: AI画像生成の新時代
Stability AIはStable Diffusion 3.5をリリースし、複数の強力なモデルバリアントを提供し、商用利用をサポートし、画像品質とプロンプトの適合性で市場をリードしています。
ComfyUI V1リリース: ワンクリックインストール可能なクロスプラットフォームデスクトップアプリ
ComfyUIはバージョン1をリリースし、ワンクリックインストールが可能なクロスプラットフォームデスクトップアプリケーション、新しいユーザーインターフェース、多数の機能改善を提供し、ユーザー体験を大幅に向上させます。
KuaishouとPKU、ピラミッドフローマッチングビデオ生成モデルを共同リリース
Kuaishou Technologyと北京大学が共同で開発したピラミッドフローマッチングモデルは、フローマッチングに基づく自己回帰型ビデオ生成技術であり、高品質で長時間のビデオコンテンツを生成することが可能です。
Jasperai、Flux.1-dev ControlNetモデルシリーズをリリース
Jasperaiは、Flux.1-dev用のControlNetモデルシリーズを発表しました。これには、サーフェスノーマル、デプスマップ、超解像モデルが含まれ、AI画像生成の精度を向上させます。
ComfyUI-PuLID-Flux: ComfyUIでのPuLID-Fluxの実装
ComfyUI-PuLID-Fluxは、ComfyUIにPuLID-Fluxを統合するオープンソースプロジェクトであり、強力な画像生成と編集機能を提供します。
Meta、Movie Genを発表:ビデオおよびオーディオ生成のためのAIモデル
Metaは、ビデオ生成、オーディオ生成、パーソナライズされたビデオ編集機能を含むMovie Genシリーズのモデルを紹介し、AIコンテンツ生成の新たなフロンティアを開きます。
ostris、商用可能なFLUX.1-schnellのデディスティル版OpenFLUX.1をリリース
ostrisは、FLUX.1-schnellモデルのデディスティル版であるOpenFLUX.1をリリースしました。このモデルはファインチューニングが可能で、通常のCFG値を使用し、商用ライセンスを保持しています。
Black Forest Lab、FLUX 1.1 [Pro]を発表
Black Forest Labsは、超高速生成、優れた画像品質、2K超高解像度生成を特徴とする生成AIモデルFLUX1.1 [pro]を紹介し、クリエイター、開発者、企業に前例のない機会を提供します。
THUDM、新しい画像生成モデルCogView3とCogView-3Plusをオープンソース化
THUDMは最新の画像生成モデルCogView3とCogView-3Plus-3Bをオープンソース化し、優れた性能と効率性を示しています。CogView3はカスケード拡散技術を利用し、CogView-3Plus-3BはDiTアーキテクチャに基づく軽量モデルで、テキストから画像生成の分野に大きなブレークスルーをもたらします。