OmniGen2发布:支持自然语言指令的统一图像理解与生成模型
2025/06/24
OmniGen2发布:支持自然语言指令的统一图像理解与生成模型
VectorSpaceLab团队正式发布了OmniGen2,这是一个功能强大的多模态图像生成模型。与前代OmniGen v1不同,OmniGen2采用了文本和图像模态的双路径解码设计,使用独立参数和解耦的图像分词器,在图像编辑领域实现了显著的性能提升。
核心功能特性
OmniGen2具备四大核心能力,特别在图像编辑方面表现突出:
自然语言指令图像编辑
OmniGen2最大的亮点是支持通过自然语言指令实现精准的局部图像编辑。用户可以简单地描述想要的修改内容,模型就能准确执行各种复杂的编辑任务:
- 服装修改:如”将裙子改为蓝色”
- 动作调整:如”举起手”、“让他微笑”
- 背景处理:如”将背景改为教室”
- 物品添加:如”给女人戴上渔夫帽”
- 对象替换:如”将剑替换为锤子”
- 对象删除:如”移除猫”
- 风格转换:如”基于原图生成动漫风格手办”
文本生成图像
模型能够根据文本描述生成高质量、美观的图像,支持各种创意场景的实现。
上下文生成
OmniGen2具备处理和灵活组合多样化输入的能力,包括人物、参考对象和场景,能够产生新颖且连贯的视觉输出。
视觉理解
继承了Qwen-VL-2.5基础架构的强大视觉理解能力,能够解释和分析图像内容。
技术优势
OmniGen2在开源模型中实现了图像编辑的领先性能,相比其他同类模型具有以下优势:
- 更精准的编辑控制:通过自然语言指令实现细粒度的图像修改
- 资源效率高:提供CPU卸载选项,支持有限显存设备运行
- 多语言支持:虽然英语效果最佳,但支持多种语言输入
- 易于使用:提供简单的API接口和在线演示
系统要求与使用
OmniGen2原生需要NVIDIA RTX 3090或同等级别的GPU,约17GB显存。对于显存较少的设备,可以启用CPU卸载功能来运行模型。
模型支持多种使用方式:
- 命令行工具
- Gradio网页界面
- Jupyter笔记本
- 在线演示平台
使用建议
为获得最佳效果,建议用户:
- 使用高质量图像:提供清晰的图像,分辨率最好大于512×512像素
- 详细描述指令:清晰描述要修改的内容和期望的结果
- 使用英语提示词:模型在英语提示下表现最佳
- 调整参数设置:根据任务类型调整文本指导强度和图像指导强度
技术限制
当前版本存在一些限制:
- 模型有时可能不完全遵循指令,建议生成多张图像以选择最佳结果
- 无法自动决定输出图像尺寸,默认为1024×1024
- 在处理多张图像时需要手动设置输出尺寸以匹配编辑目标
相关链接
- 项目主页:https://vectorspacelab.github.io/OmniGen2
- GitHub仓库:https://github.com/VectorSpaceLab/OmniGen2
- 模型下载:https://huggingface.co/OmniGen2/OmniGen2
- 在线演示:https://huggingface.co/spaces/OmniGen2/OmniGen2
- 技术论文:https://arxiv.org/abs/2506.18871
OmniGen2作为开源项目,为研究人员和开发者在可控和个性化生成AI领域的探索提供了强大而高效的基础工具。团队表示将会发布训练代码和数据集,为社区提供更多支持。