AIGC 最新动态
及时了解 AIGC 领域的最新进展和更新。
谷歌发布 PaliGemma 2 mix:支持多任务的开源视觉语言模型
Google 推出全新的 PaliGemma 2 mix 模型,支持图像描述、OCR、目标检测等多种视觉任务,提供 3B、10B 和 28B 三种规模版本
昆仑万维开源 SkyReels-V1:专注 AI 短剧创作的视频生成模型
昆仑万维发布开源视频生成模型 SkyReels-V1,支持文生视频和图生视频,具备电影级光影效果和自然动作表现,并已开放商用
Light-A-Video - 无需训练的视频重照明技术
研究人员提出了一种新的视频重照明方法 Light-A-Video,通过一致光注意力(CLA)和渐进式光融合(PLF)实现了时间上平滑的视频重照明效果
StepFun开源Step-Video-T2V:300亿参数文生视频模型发布
StepFun发布开源文生视频模型Step-Video-T2V,拥有300亿参数,支持生成长达204帧的高质量视频,并提供在线体验平台
快手推出CineMaster:突破3D感知的智能视频生成框架
快手正式发布CineMaster文本到视频生成框架,通过3D感知技术实现高品质视频内容创作
阿里巴巴开源 InspireMusic:创新的音乐、歌曲和音频生成框架
阿里巴巴最新开源项目 InspireMusic 是一个基于 FunAudioLLM 的综合音频生成框架,支持音乐制作、歌曲生成等多种音频合成任务。
阿里开源ACE++:无需训练实现角色一致图像生成
阿里巴巴研究院开源图像生成工具ACE++,通过上下文感知内容填充技术,支持单图输入生成角色一致的新图像,提供在线体验与三类专用模型。
字节跳动发布 OmniHuman:新一代人体动画生成框架
字节跳动研究团队发布 OmniHuman-1 人体动画生成框架,通过单张图片和动作信号即可生成高质量人体视频动画。
DeepSeek开源 Janus-Pro-7B 多模态 AI 模型性能超越DALL-E 3
腾讯混元3D 2.0发布:开源高质量3D生成大模型与全流程创作引擎
腾讯发布混元3D 2.0,开源完整DiT模型并推出包含骨骼动画、草图转3D等多项创新功能的一站式3D创作引擎,为元宇宙与游戏内容创作带来革命性突破
ComfyUI项目两周年,并推出官方中文社区
ComfyUI迎来两周岁生日,从一个个人项目发展成为全球最受欢迎的生成式AI视觉工具,祝 ComfyUI 生日快乐
NVIDIA开源Sana - 高效生成4K图像的AI模型
NVIDIA推出全新的Sana模型,可在普通笔记本GPU上快速生成高达4K分辨率的图像,并已支持ComfyUI集成
字节跳动开源LatentSync - 基于扩散模型的高精度口型同步技术
字节跳动发布开源口型同步工具LatentSync,基于音频条件潜空间扩散模型,可实现真人和动画角色的精准口型同步,并解决了传统方法中的画面跳动问题

VMix:字节跳动推出创新的文生图扩散模型美学增强技术
字节跳动与中国科技大学联合推出VMix适配器,通过交叉注意力混合控制技术提升AI生成图像的美学质量,无需重新训练即可与现有模型完美集成
腾讯开源 StereoCrafter:一键将普通视频转为 3D 视频
腾讯 AI Lab 和 ARC Lab 联合开发的 StereoCrafter 模型现已开源,可将任何 2D 视频转换为高质量的立体 3D 视频,支持多种 3D 显示设备,包括 Apple Vision Pro
LuminaBrush: ControlNet作者推出AI光照编辑工具
ControlNet和IC-Light作者lllyasviel发布新作LuminaBrush,通过两阶段框架实现精确的光照效果控制,提供直观的笔刷交互体验
Genesis:突破性的通用物理引擎和生成式AI平台发布
Genesis 项目发布全新的通用物理引擎和生成式AI平台,集成了物理模拟、机器人控制和生成式AI能力,为机器人和物理AI应用提供全方位解决方案
Odyssey发布Explorer - 突破性的生成式世界模型
Odyssey推出首个生成式世界模型Explorer,可将2D图像转换为完整的3D世界,支持动态效果和主流创意工具编辑,将为电影、游戏等领域带来革命性变革

ComfyUI Impact-Pack插件被植入挖矿病毒,请尽快处理
ComfyUI社区知名插件Impact-Pack被发现通过Ultralytics包植入挖矿病毒,影响大量用户。本文详细介绍病毒情况及解决方案。
Luma发布全新AI图像生成模型Photon - 超高性价比的创意生成引擎
Luma推出革命性的Photon和Photon Flash图像生成模型,以超高性价比和卓越的图像质量重新定义AI创作领域
腾讯开源混元视频生成大模型HunyuanVideo - 开创视频生成新纪元
腾讯正式开源业界最大规模的视频生成大模型HunyuanVideo,拥有130亿参数量,在视频生成质量、运动稳定性等方面达到领先水平
Stability AI 发布 Stable Diffusion 3.5 Large ControlNet 模型
Stability AI 推出三个新的 ControlNet 模型用于 Stable Diffusion 3.5 Large,包括 Blur、Canny 和 Depth,为图像生成提供更精确的控制能力
NVIDIA发布Edify 3D - 革命性的3D资产生成技术
NVIDIA推出全新的Edify 3D技术,可在2分钟内生成高质量3D资产,包括详细几何形状、清晰拓扑、高分辨率纹理和PBR材质

Lightricks 发布实时视频生成模型 LTX-Video
Lightricks 推出基于 DiT 的实时视频生成模型 LTX-Video,支持实时速率生成高质量视频,并已在 GitHub 和 Hugging Face 开源发布。

InstantX 开源 FLUX.1-dev IP-Adapter 模型
InstantX 团队发布了基于 FLUX.1-dev 的 IP-Adapter 模型,为 FLUX 模型带来更强大的图像参考能力
FLUX官方工具套件重磅发布
Black Forest Labs发布多款FLUX官方工具,包括局部重绘、ControlNet和图像风格转换等功能
IC-Light V2 发布: 更强大的图像编辑能力
IC-Light V2 是一个基于 Flux 的图像编辑模型,支持多种风格化图像处理,包括油画和动漫风格。本文详细介绍了 IC-Light V2 的新特性和应用场景。

Stable Diffusion 3.5 发布:AI 图像生成的新时代
Stability AI 发布 Stable Diffusion 3.5,提供多个强大的模型变体,支持商业使用,在图像质量和提示词遵循方面领先市场。
ComfyUI V1 发布:一键安装的跨平台桌面应用
ComfyUI 发布了 V1 版本,提供了跨平台的一键安装桌面应用,全新的用户界面,以及多项功能改进,大大提升了用户体验。
快手与北大联合推出 Pyramidal Flow Matching 视频生成模型
快手科技与北京大学联合开发的 Pyramidal Flow Matching 模型,基于流匹配的自回归视频生成技术,能够生成高质量、长时间的视频内容。
Jasperai 发布 Flux.1-dev ControlNet 模型系列
Jasperai 推出适用于 Flux.1-dev 的 ControlNet 模型系列,包括表面法线、深度图和超分辨率模型,为 AI 图像生成提供更精确的控制。
ComfyUI-PuLID-Flux: PuLID-Flux在ComfyUI中的实现
ComfyUI-PuLID-Flux is an open-source project that integrates PuLID-Flux into ComfyUI, offering powerful image generation and editing capabilities.
Meta发布Movie Gen: AI视频音频生成模型
Meta introduces the Movie Gen series of models, including video generation, audio generation, and personalized video editing capabilities, opening new frontiers in AI content creation.
ostris发布OpenFLUX.1:FLUX.1-schnell的可商用去蒸馏版本
ostris has released OpenFLUX.1, a de-distilled version of the FLUX.1-schnell model that can be fine-tuned, uses normal CFG values, and retains commercial licensing.
黑森林实验室推出FLUX1.1 [pro]AI绘图模型
Black Forest Labs introduces FLUX1.1 [pro], a generative AI model featuring ultra-fast generation, superior image quality, and 2K ultra-high resolution generation, opening unprecedented opportunities for creators, developers, and businesses.
智谱 AI 开源图像生成新模型:CogView3 与 CogView-3Plus
智谱 AI 开源了最新的图像生成模型 CogView3 和 CogView-3Plus-3B,展现出卓越的性能和效率。CogView3 采用级联扩散技术,而 CogView-3Plus-3B 是基于 DiT 架构的轻量级模型,为文本到图像生成领域带来了重大突破。