Skip to content
ComfyUI Wiki
帮助构建更好的 ComfyUI 知识库 成为赞助者
新闻OmniGen2发布:支持自然语言指令的统一图像理解与生成模型

OmniGen2发布:支持自然语言指令的统一图像理解与生成模型

VectorSpaceLab团队正式发布了OmniGen2,这是一个功能强大的多模态图像生成模型。与前代OmniGen v1不同,OmniGen2采用了文本和图像模态的双路径解码设计,使用独立参数和解耦的图像分词器,在图像编辑领域实现了显著的性能提升。

OmniGen2整体功能展示

核心功能特性

OmniGen2具备四大核心能力,特别在图像编辑方面表现突出:

自然语言指令图像编辑

OmniGen2最大的亮点是支持通过自然语言指令实现精准的局部图像编辑。用户可以简单地描述想要的修改内容,模型就能准确执行各种复杂的编辑任务:

  • 服装修改:如”将裙子改为蓝色”
  • 动作调整:如”举起手”、“让他微笑”
  • 背景处理:如”将背景改为教室”
  • 物品添加:如”给女人戴上渔夫帽”
  • 对象替换:如”将剑替换为锤子”
  • 对象删除:如”移除猫”
  • 风格转换:如”基于原图生成动漫风格手办”

OmniGen2图像编辑功能展示

文本生成图像

模型能够根据文本描述生成高质量、美观的图像,支持各种创意场景的实现。

上下文生成

OmniGen2具备处理和灵活组合多样化输入的能力,包括人物、参考对象和场景,能够产生新颖且连贯的视觉输出。

OmniGen2上下文生成功能展示

视觉理解

继承了Qwen-VL-2.5基础架构的强大视觉理解能力,能够解释和分析图像内容。

技术优势

OmniGen2在开源模型中实现了图像编辑的领先性能,相比其他同类模型具有以下优势:

  • 更精准的编辑控制:通过自然语言指令实现细粒度的图像修改
  • 资源效率高:提供CPU卸载选项,支持有限显存设备运行
  • 多语言支持:虽然英语效果最佳,但支持多种语言输入
  • 易于使用:提供简单的API接口和在线演示

系统要求与使用

OmniGen2原生需要NVIDIA RTX 3090或同等级别的GPU,约17GB显存。对于显存较少的设备,可以启用CPU卸载功能来运行模型。

模型支持多种使用方式:

  • 命令行工具
  • Gradio网页界面
  • Jupyter笔记本
  • 在线演示平台

使用建议

为获得最佳效果,建议用户:

  1. 使用高质量图像:提供清晰的图像,分辨率最好大于512×512像素
  2. 详细描述指令:清晰描述要修改的内容和期望的结果
  3. 使用英语提示词:模型在英语提示下表现最佳
  4. 调整参数设置:根据任务类型调整文本指导强度和图像指导强度

技术限制

当前版本存在一些限制:

  • 模型有时可能不完全遵循指令,建议生成多张图像以选择最佳结果
  • 无法自动决定输出图像尺寸,默认为1024×1024
  • 在处理多张图像时需要手动设置输出尺寸以匹配编辑目标

相关链接

OmniGen2作为开源项目,为研究人员和开发者在可控和个性化生成AI领域的探索提供了强大而高效的基础工具。团队表示将会发布训练代码和数据集,为社区提供更多支持。