Skip to content
帮助构建更好的 ComfyUI 知识库 成为赞助者
新闻OmniSVG:复旦大学与StepFun联合发布统一矢量图形生成模型

OmniSVG:复旦大学与StepFun联合发布统一矢量图形生成模型

复旦大学与阶跃星辰(StepFun)团队近日联合发布了名为OmniSVG的统一可缩放矢量图形(SVG)生成模型。该模型能够通过文本、图像或角色参考等多种输入方式,生成从简单图标到复杂动漫角色等各类高品质矢量图形。

与传统图像生成模型不同,OmniSVG生成的是可无限缩放且完全可编辑的SVG文件,这使得设计师可以直接利用生成结果进行后期处理和修改,极大提升了AI图形生成在专业设计工作流程中的实用性。

OmniSVG模型示例

技术创新与工作原理

OmniSVG基于预训练视觉语言模型(VLM)Qwen-VL构建,通过创新性的SVG标记化方法解决了矢量图形生成中的核心挑战。该模型将SVG命令和坐标参数化为离散标记,实现了结构逻辑与几何细节的解耦,同时保持了复杂SVG结构的表达能力。

OmniSVG工作流程

这一设计有以下关键优势:

  • 生成过程高效:相比传统方法,训练速度提升3倍以上
  • 超长上下文支持:处理长达30,000个标记的序列,支持包含丰富细节的复杂SVG生成
  • 多模态输入兼容:支持文本描述、图像参考或角色参考等多种输入方式

生成过程展示:

生成过程演示

多种生成模式

OmniSVG支持多种生成模式,满足不同应用场景的需求:

文本到SVG生成

用户通过自然语言描述即可生成符合语义的矢量图形,例如”一只坐在樱花树下的卡通猫”。

文本到SVG示例

图像到SVG转换

将位图(如照片或手绘草图)自动转换为由路径组成的矢量图形,保留原始图像的视觉特征同时获得可编辑性。

图像到SVG示例

角色参考SVG生成

基于现有角色图像,生成保持相同角色特征但姿势或场景不同的矢量图形,对于动画和游戏角色设计特别有价值。

角色参考生成示例

MMSVG-2M数据集

为推动SVG生成技术的发展,研究团队同时开源了MMSVG-2M数据集,这是首个大规模多模态SVG数据集,包含200万个样本,涵盖图标、插画和角色设计等类别。

MMSVG-2M数据集可视化

MMSVG-2M数据集的主要特点:

  • 多样性丰富:从简单图标到复杂角色设计,复杂度跨度大
  • 多模态标注:每个SVG均附带文本描述和对应的位图渲染
  • 高质量样本:提供专业级别的矢量图形设计样本

目前,研究团队已经在Hugging Face平台上开源了MMSVG-Icon和MMSVG-Illustration两个子数据集,而MMSVG-Character数据集计划在近期发布。

应用潜力与局限性

应用场景

  • 设计自动化:快速生成品牌图标、插画素材,减少手动绘制时间
  • 动态内容创建:结合动画工具,批量生成角色动作序列
  • 跨平台适配:生成的矢量图可无损缩放,适用于从移动设备到4K显示器的多种分辨率

当前局限

  • 生成速度:复杂样本需生成数万个标记,导致推理时间较长(如生成一个动漫角色需139秒)
  • 风格泛化:对非训练集风格的图像输入转换效果有限,需进一步融合多风格数据

开源计划与资源

研究团队已开源MMSVG-Icon和MMSVG-Illustration数据集,并计划在近期开源模型代码和预训练权重。OmniSVG项目的开源将为SVG生成领域提供新的技术范式,促进设计工具的智能化升级。

相关链接

OmniSVG的发布标志着矢量图形生成技术的重要进步,为图形设计、UI/UX创作和视觉内容制作领域带来新的可能性,同时也为AI生成内容向专业设计工作流程的融合提供了新的探索方向。