AIGC 最新ニュース
最新のAIGCニュースと更新情報をお届けします。
マイクロソフト、ART多層透明画像生成技術を発表
マイクロソフトリサーチがグローバルテキストプロンプトに基づくインテリジェントレイヤー生成ソリューションを開発。50以上の独立レイヤーを含む透明画像の作成を可能に
Tencentが画像から動画を生成するオープンソースモデルHunyuanVideo-I2Vを公開
TencentのHunyuanチームが単一画像から5秒動画を生成可能なオープンソースモデルをリリース。スマートモーション生成とカスタムエフェクト機能を提供
Alibaba、文書解析ツールViDoRAGをオープンソース化
テキストと画像を同時に理解するAIシステム、複雑文書処理効率10%以上向上

智譜AIチーム(THUDM)CogView4をオープンソース化 - 中国語ネイティブ対応のDiTテキスト画像生成モデル
智譜AIチーム(THUDM)が日中バイリンガル入力と漢字生成可能なオープンソース画像生成モデルCogView4を公開、複数ベンチマークで首位を獲得
Sesame、CSM音声モデルで自然な対話を実現
SesameがデュアルTransformerアーキテクチャの会話型音声モデルCSMを公開、リアルタイム音声インタラクションとオープンソースコアを提供
アリババの万相 Wan2.1 ビデオ生成モデルが正式にオープンソースに
アリババが最新のビデオ生成モデルである Wan2.1 を正式にオープンソースにした。このモデルはわずか 8GB のビデオメモリで動作し、高画質ビデオ生成、動的字幕、多言語吹き替えをサポートし、VBench ランキングで Sora などを超える 86.22% の総スコアを記録した
アリババが ComfyUI Copilot をオープンソース:AI によって駆動されるスマートワークフローアシスタント
アリババ国際デジタル商業グループ(AIDC-AI)は ComfyUI Copilot プラグインをリリースしました。これは、自然言語インタラクションと AI によって駆動される機能を通じて ComfyUI の使用体験を簡素化し、中国語インタラクションをサポートし、スマートノードの推奨機能などを提供します。
アリババの万相2.1ビデオ生成モデルがオープンソースになる
アリババは、最新のビデオ生成モデルである万相2.1が2025年第二四半期にオープンソースになることを発表した。このモデルは、HDビデオ生成、動的字幕、多言語音声などをサポートし、VBenchランキングで84.7%の総スコアで首位に立っている
GoogleがPaliGemma 2 mixをリリース:多タスクをサポートするオープンソースの視覚言語モデル
Googleが新しいPaliGemma 2 mixモデルをリリースし、画像の説明、OCR、オブジェクト検出など多くの視覚タスクをサポートし、3B、10B、28Bの3つのスケールバージョンを提供
SkyworkがSkyReels-V1をオープンソース:AI短編映画創作に特化したビデオ生成モデル
Skyworkがオープンソースビデオ生成モデルSkyReels-V1をリリースし、文生ビデオと図生ビデオをサポートし、映画級の光影効果と自然な動作表現を実現し、商用も可能にした
Light-A-Video - トレーニング不要のビデオ再照明技術
研究者たちは新しいビデオ再照明手法Light-A-Videoを提案しました。この手法は、一貫した光注意(CLA)と段階的光融合(PLF)を通じて、時間的に滑らかなビデオ再照明効果を実現します。
StepFunがオープンソースのStep-Video-T2Vを発表:300億パラメータのテキストから動画生成モデル
StepFunはオープンソースのテキストから動画生成モデルStep-Video-T2Vを発表しました。300億パラメータを持ち、最大204フレームの高品質動画を生成でき、オンライン体験プラットフォームも提供しています。
Kuaishou(快手)がCineMasterを発表:3D認識による画期的な動画生成フレームワーク
Kuaishouが3D認識技術による高品質な動画コンテンツ制作を実現するCineMasterテキスト→動画生成フレームワークを正式リリース
アリババがInspireMusicをオープンソース化:革新的な音楽、歌声、オーディオ生成フレームワーク
アリババの最新オープンソースプロジェクトInspireMusic、FunAudioLLMをベースとした統合オーディオ生成フレームワークで、音楽制作、歌声生成など様々なオーディオ合成タスクをサポート。
Alibaba がACE++をオープンソース化:トレーニング不要のキャラクター一貫性画像生成
アリババ研究所が画像生成ツールACE++をオープンソース化。コンテキスト認識コンテンツ充填技術により、単一入力からキャラクター一貫性のある新しい画像を生成し、オンライン体験と3種類の専用モデルを提供。
ByteDanceがOmniHumanを発表:次世代人体アニメーション生成フレームワーク
ByteDanceの研究チームが人体アニメーション生成フレームワークOmniHuman-1を発表。1枚の画像とモーション信号から高品質な人体ビデオアニメーションを生成可能に。
DeepSeek、Janus-Pro-7Bをオープンソース化:マルチモーダルAIモデル
テンセントがHunyuan3D 2.0をリリース:オープンソースの高品質3D生成モデルと統合制作エンジン
テンセントがHunyuan3D 2.0をリリース。完全なDiTモデルをオープンソース化し、スケルタルアニメーションやスケッチから3Dへの変換など、革新的な機能を備えたワンストップ3D制作エンジンを提供。メタバースとゲームコンテンツ制作に革命をもたらす
ComfyUIプロジェクト2周年
ComfyUIは2周年を迎え、個人プロジェクトから世界で最も人気のある生成AIビジュアルツールへと進化しました。ComfyUI、お誕生日おめでとうございます!
NVIDIAオープンソースSana - 効率的な4K画像生成のAIモデル
NVIDIAは新しいSanaモデルを発表しました。このモデルは、一般的なノートパソコンのGPUで最大4K解像度の画像を迅速に生成でき、ComfyUIの統合をサポートしています。
ByteDanceがLatentSyncをオープンソース化 - 拡散モデルベースの高精度リップシンク技術
ByteDanceが音声条件付き潜在空間拡散モデルに基づくリップシンクツールLatentSyncをオープンソースで公開。実写と アニメーションキャラクターの両方で精密なリップシンクを実現し、従来手法のフレームジッター問題を解決

VMix:ByteDanceが革新的な文章から画像生成モデルの美的向上技術を発表
ByteDanceと中国科学技術大学が共同でVMixアダプターを発表。クロスアテンション混合制御技術によりAI生成画像の美的品質を向上させ、再学習なしで既存モデルと完璧に統合
テンセントがStereoCrafterをオープンソース化:通常の動画を3D動画に一発変換
テンセントAI LabとARC Labが共同開発したStereoCrafterモデルがオープンソース化。2D動画を高品質な立体3D動画に変換可能で、Apple Vision Proを含む様々な3Dディスプレイに対応
LuminaBrush: ControlNetの開発者がAIライティング編集ツールをリリース
ControlNetとIC-Lightの開発者lllyasvielが新作LuminaBrushを発表。2段階フレームワークで正確な照明効果の制御を実現し、直感的なブラシ操作体験を提供
Genesis:革新的汎用物理エンジンと生成AIプラットフォームをリリース
Genesisプロジェクトが新しい汎用物理エンジンと生成AIプラットフォームをリリース。物理シミュレーション、ロボット制御、生成AI機能を統合し、ロボットと物理AIアプリケーションの包括的なソリューションを提供
Odysseyが革新的な生成型ワールドモデルExplorerをリリース
Odysseyが初の生成型ワールドモデルExplorerを発表。2D画像を完全な3D世界に変換し、ダイナミックな効果とメインストリームのクリエイティブツールによる編集をサポートし、映画、ゲームなどの分野に革新的な変化をもたらします

ComfyUI Impact-Packプラグインでマイニングウイルスが発見 - 緊急対応が必要
ComfyUIコミュニティの人気プラグインImpact-PackがUltralyticsパッケージを通じてマイニングマルウェアを含んでいることが判明し、多数のユーザーに影響。本記事ではウイルスの状況と解決策を詳しく説明します。
Lumaが新しいAI画像生成モデルPhotonを発表 - 高コストパフォーマンスのクリエイティブ生成エンジン
LumaがPhotonとPhoton Flashという革新的な画像生成モデルを発表し、優れたコストパフォーマンスと卓越した画質でAIクリエイション分野を再定義
テンセント、HunyuanVideo - 動画生成の新時代を切り開く大規模モデルをオープンソース化
テンセントが業界最大規模の動画生成モデルHunyuanVideoを正式にオープンソース化。130億のパラメータを持ち、動画品質や動きの安定性などで最高水準を達成
Stability AI が Stable Diffusion 3.5 Large ControlNet モデルをリリース
Stability AI が Stable Diffusion 3.5 Large 用の新しい ControlNet モデル3種(Blur、Canny、Depth)をリリースし、画像生成のより精密な制御を実現
NVIDIA、Edify 3Dを発表 - 革新的な3Dアセット生成技術
NVIDIAは、新しいEdify 3D技術を発表しました。この技術は、詳細なジオメトリ、明確なトポロジー、高解像度のテクスチャ、PBRマテリアルを含む高品質の3Dアセットをわずか2分で生成することができます。

Lightricks、リアルタイムビデオ生成モデルLTX-Videoを発表
Lightricksは、DiTに基づくリアルタイムビデオ生成モデルLTX-Videoを発表しました。高品質なビデオをリアルタイムで生成でき、GitHubとHugging Faceでオープンソース化されています。

InstantX、FLUX.1-dev IP-Adapterモデルをリリース
InstantXチームは、FLUX.1-devに基づくIP-Adapterモデルをリリースし、FLUXモデルにより強力な画像参照機能をもたらしました
FLUX公式ツールスイートのリリース
Black Forest Labsがローカルリドロー、ControlNet、画像スタイル変換を含む多様なFLUX公式ツールをリリース
IC-Light V2リリース: 画像編集機能の強化
IC-Light V2は、油絵やアニメスタイルを含む様々なスタイライズ画像処理をサポートするFluxベースの画像編集モデルです。この記事では、IC-Light V2の新機能と応用について詳しく説明します。

Stable Diffusion 3.5の登場: AI画像生成の新時代
Stability AIはStable Diffusion 3.5をリリースし、複数の強力なモデルバリアントを提供し、商用利用をサポートし、画像品質とプロンプトの適合性で市場をリードしています。
ComfyUI V1リリース: ワンクリックインストール可能なクロスプラットフォームデスクトップアプリ
ComfyUIはバージョン1をリリースし、ワンクリックインストールが可能なクロスプラットフォームデスクトップアプリケーション、新しいユーザーインターフェース、多数の機能改善を提供し、ユーザー体験を大幅に向上させます。
KuaishouとPKU、ピラミッドフローマッチングビデオ生成モデルを共同リリース
Kuaishou Technologyと北京大学が共同で開発したピラミッドフローマッチングモデルは、フローマッチングに基づく自己回帰型ビデオ生成技術であり、高品質で長時間のビデオコンテンツを生成することが可能です。
Jasperai、Flux.1-dev ControlNetモデルシリーズをリリース
Jasperaiは、Flux.1-dev用のControlNetモデルシリーズを発表しました。これには、サーフェスノーマル、デプスマップ、超解像モデルが含まれ、AI画像生成の精度を向上させます。
ComfyUI-PuLID-Flux: ComfyUIでのPuLID-Fluxの実装
ComfyUI-PuLID-Fluxは、ComfyUIにPuLID-Fluxを統合するオープンソースプロジェクトであり、強力な画像生成と編集機能を提供します。
Meta、Movie Genを発表:ビデオおよびオーディオ生成のためのAIモデル
Metaは、ビデオ生成、オーディオ生成、パーソナライズされたビデオ編集機能を含むMovie Genシリーズのモデルを紹介し、AIコンテンツ生成の新たなフロンティアを開きます。
ostris、商用可能なFLUX.1-schnellのデディスティル版OpenFLUX.1をリリース
ostrisは、FLUX.1-schnellモデルのデディスティル版であるOpenFLUX.1をリリースしました。このモデルはファインチューニングが可能で、通常のCFG値を使用し、商用ライセンスを保持しています。
Black Forest Lab、FLUX 1.1 [Pro]を発表
Black Forest Labsは、超高速生成、優れた画像品質、2K超高解像度生成を特徴とする生成AIモデルFLUX1.1 [pro]を紹介し、クリエイター、開発者、企業に前例のない機会を提供します。
THUDM、新しい画像生成モデルCogView3とCogView-3Plusをオープンソース化
THUDMは最新の画像生成モデルCogView3とCogView-3Plus-3Bをオープンソース化し、優れた性能と効率性を示しています。CogView3はカスケード拡散技術を利用し、CogView-3Plus-3BはDiTアーキテクチャに基づく軽量モデルで、テキストから画像生成の分野に大きなブレークスルーをもたらします。