智谱团队(THUDM)开源CogView4 - 原生支持中文的DiT文生图模型
智谱AI团队(THUDM)于今日正式开源CogView4多模态生成模型,这是原生支持中文提示词并能在图像中生成汉字的开源扩散Transformer(DiT)模型。该模型在DPG-Bench基准测试中以85.13的综合评分位列榜首,展现了强大的图像生成能力。
核心功能亮点
双语生成能力
- 采用升级版GLM-4文本编码器,完美支持中英双语输入
- 训练数据包含百万级中英双语图文对,彻底解决中文提示词理解难题
- 在汉字生成准确率测试中,F1分数达61.68%,超越同类模型
智能文本处理
- 动态文本长度支持(最长1024词元)
- 相比固定长度方案减少50%冗余计算
- 训练效率提升最高达30%
灵活分辨率生成
- 支持512px-2048px任意尺寸输出
- 混合分辨率训练方案适应不同场景需求
- 特别优化社交媒体常用比例(9:16, 1:1, 4:3等)
技术优势
模型采用创新的「接力扩散」框架:
- 基础生成阶段:快速构建低分辨率图像轮廓
- 超分辨率阶段:通过flow-matching技术细化细节
- 动态噪声规划:优化生成速度与质量平衡
在权威评测中:
- DPG-Bench综合评分85.13超越SDXL(74.65)和DALL-E 3(83.50)
- T2I-CompBench复杂场景生成能力达0.3869分
- 中文文字生成准确率F1值61.68%,较同类提升114%
硬件适配
针对不同设备提供多级优化方案:
- 基础模式:RTX 3090即可运行512x512生成
- 内存优化:通过CPU卸载技术降低显存占用至13GB
- 4bit量化:支持文本编码器量化压缩,提升推理速度
使用方式
普通用户可通过HuggingFace Spaces平台直接体验在线演示,开发者可通过模型下载获取完整代码库。该模型支持通过简单API调用实现:
- 中英文混合提示词输入
- 自定义输出尺寸设置
- 批量生成功能
相关资源
智谱团队表示,未来三个月内将陆续推出ControlNet控制模块、ComfyUI可视化工作流支持,以及模型微调工具包,进一步降低普通用户的使用门槛。