腾讯混元团队开源 MixGRPO 框架，提升人类偏好对齐训练效率

2025/08/03

OmniSVG：复旦大学与StepFun联合发布统一矢量图形生成模型

复旦大学与阶跃星辰（StepFun）团队近日联合发布了名为OmniSVG的统一可缩放矢量图形（SVG）生成模型。该模型能够通过文本、图像或角色参考等多种输入方式，生成从简单图标到复杂动漫角色等各类高品质矢量图形。

与传统图像生成模型不同，OmniSVG生成的是可无限缩放且完全可编辑的SVG文件，这使得设计师可以直接利用生成结果进行后期处理和修改，极大提升了AI图形生成在专业设计工作流程中的实用性。

OmniSVG模型示例

技术创新与工作原理

OmniSVG基于预训练视觉语言模型（VLM）Qwen-VL构建，通过创新性的SVG标记化方法解决了矢量图形生成中的核心挑战。该模型将SVG命令和坐标参数化为离散标记，实现了结构逻辑与几何细节的解耦，同时保持了复杂SVG结构的表达能力。

OmniSVG工作流程

这一设计有以下关键优势：

生成过程高效：相比传统方法，训练速度提升3倍以上
超长上下文支持：处理长达30,000个标记的序列，支持包含丰富细节的复杂SVG生成
多模态输入兼容：支持文本描述、图像参考或角色参考等多种输入方式

生成过程展示：

生成过程演示

多种生成模式

OmniSVG支持多种生成模式，满足不同应用场景的需求：

文本到SVG生成

用户通过自然语言描述即可生成符合语义的矢量图形，例如”一只坐在樱花树下的卡通猫”。

文本到SVG示例

图像到SVG转换

将位图（如照片或手绘草图）自动转换为由路径组成的矢量图形，保留原始图像的视觉特征同时获得可编辑性。

图像到SVG示例

角色参考SVG生成

基于现有角色图像，生成保持相同角色特征但姿势或场景不同的矢量图形，对于动画和游戏角色设计特别有价值。

角色参考生成示例

MMSVG-2M数据集

为推动SVG生成技术的发展，研究团队同时开源了MMSVG-2M数据集，这是首个大规模多模态SVG数据集，包含200万个样本，涵盖图标、插画和角色设计等类别。

MMSVG-2M数据集可视化

MMSVG-2M数据集的主要特点：

多样性丰富：从简单图标到复杂角色设计，复杂度跨度大
多模态标注：每个SVG均附带文本描述和对应的位图渲染
高质量样本：提供专业级别的矢量图形设计样本

目前，研究团队已经在Hugging Face平台上开源了MMSVG-Icon和MMSVG-Illustration两个子数据集，而MMSVG-Character数据集计划在近期发布。

应用潜力与局限性

应用场景

设计自动化：快速生成品牌图标、插画素材，减少手动绘制时间
动态内容创建：结合动画工具，批量生成角色动作序列
跨平台适配：生成的矢量图可无损缩放，适用于从移动设备到4K显示器的多种分辨率

当前局限

生成速度：复杂样本需生成数万个标记，导致推理时间较长（如生成一个动漫角色需139秒）
风格泛化：对非训练集风格的图像输入转换效果有限，需进一步融合多风格数据

开源计划与资源

研究团队已开源MMSVG-Icon和MMSVG-Illustration数据集，并计划在近期开源模型代码和预训练权重。OmniSVG项目的开源将为SVG生成领域提供新的技术范式，促进设计工具的智能化升级。

RunComfy

Comfy Deploy

Comfy Online

Comfy.ICU

InstaSD