字节跳动推出Seaweed-7B:高性价比的视频生成基础模型
2025/04/14
OmniSVG:复旦大学与StepFun联合发布统一矢量图形生成模型
复旦大学与阶跃星辰(StepFun)团队近日联合发布了名为OmniSVG的统一可缩放矢量图形(SVG)生成模型。该模型能够通过文本、图像或角色参考等多种输入方式,生成从简单图标到复杂动漫角色等各类高品质矢量图形。
与传统图像生成模型不同,OmniSVG生成的是可无限缩放且完全可编辑的SVG文件,这使得设计师可以直接利用生成结果进行后期处理和修改,极大提升了AI图形生成在专业设计工作流程中的实用性。
技术创新与工作原理
OmniSVG基于预训练视觉语言模型(VLM)Qwen-VL构建,通过创新性的SVG标记化方法解决了矢量图形生成中的核心挑战。该模型将SVG命令和坐标参数化为离散标记,实现了结构逻辑与几何细节的解耦,同时保持了复杂SVG结构的表达能力。
这一设计有以下关键优势:
- 生成过程高效:相比传统方法,训练速度提升3倍以上
- 超长上下文支持:处理长达30,000个标记的序列,支持包含丰富细节的复杂SVG生成
- 多模态输入兼容:支持文本描述、图像参考或角色参考等多种输入方式
生成过程展示:
多种生成模式
OmniSVG支持多种生成模式,满足不同应用场景的需求:
文本到SVG生成
用户通过自然语言描述即可生成符合语义的矢量图形,例如”一只坐在樱花树下的卡通猫”。
图像到SVG转换
将位图(如照片或手绘草图)自动转换为由路径组成的矢量图形,保留原始图像的视觉特征同时获得可编辑性。
角色参考SVG生成
基于现有角色图像,生成保持相同角色特征但姿势或场景不同的矢量图形,对于动画和游戏角色设计特别有价值。
MMSVG-2M数据集
为推动SVG生成技术的发展,研究团队同时开源了MMSVG-2M数据集,这是首个大规模多模态SVG数据集,包含200万个样本,涵盖图标、插画和角色设计等类别。
MMSVG-2M数据集的主要特点:
- 多样性丰富:从简单图标到复杂角色设计,复杂度跨度大
- 多模态标注:每个SVG均附带文本描述和对应的位图渲染
- 高质量样本:提供专业级别的矢量图形设计样本
目前,研究团队已经在Hugging Face平台上开源了MMSVG-Icon和MMSVG-Illustration两个子数据集,而MMSVG-Character数据集计划在近期发布。
应用潜力与局限性
应用场景
- 设计自动化:快速生成品牌图标、插画素材,减少手动绘制时间
- 动态内容创建:结合动画工具,批量生成角色动作序列
- 跨平台适配:生成的矢量图可无损缩放,适用于从移动设备到4K显示器的多种分辨率
当前局限
- 生成速度:复杂样本需生成数万个标记,导致推理时间较长(如生成一个动漫角色需139秒)
- 风格泛化:对非训练集风格的图像输入转换效果有限,需进一步融合多风格数据
开源计划与资源
研究团队已开源MMSVG-Icon和MMSVG-Illustration数据集,并计划在近期开源模型代码和预训练权重。OmniSVG项目的开源将为SVG生成领域提供新的技术范式,促进设计工具的智能化升级。
相关链接
OmniSVG的发布标志着矢量图形生成技术的重要进步,为图形设计、UI/UX创作和视觉内容制作领域带来新的可能性,同时也为AI生成内容向专业设计工作流程的融合提供了新的探索方向。